¿Qué es WillyIngestor?
WillyIngestor es un servicio de integración de datos sin servidor que facilita a los clientes de WillyLabs descubrir, preparar, migrar e integrar datos de varios orígenes. Puede utilizarlo para análisis, machine learning, desarrollo de aplicaciones y, por su puesto, todo el análisis, predicciones de venta futura, insights inteligentes, etc con WillySynaps. También incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales.
Con Ingestor, puede descubrir y conectarse actualmente a más 21 orígenes de datos diversos (y estamos en continuo ampliamento de conectores) y administrar sus datos en un catálogo centralizado. Puede crear, ejecutar y supervisar visualmente canalizaciones de extracciónm, transformación y carga (ETL) para cargar datos en WillyHUB Data360 o en datalake de WillyHUB EVP (Everything Pool). Además, puede buscar y consultar datos catalogados de forma inmediata gracias a los servicios de búsqueda avanzadas propias de WillyHUB, como WillyHUB CloudSearch o WillyHUB Spectrum.
Ingestor combina las principales capacidades de integración de datos en un solo servicio. Estas capacidades incluyen el descubrimiento de datos, el ETL moderno, la limpieza, la transformación y la catalogación centralizada. Además, es un servicio sin servidor, lo que significa que usted no tiene que preocuparse de administrar la infraestrctura. Con compatibilidad flexible para todas las cargas de trabajo como ETL, ELT y streaming en un solo servicio, Ingestor admite usuarios en varias cargas de trabajo y varios tipos de usuarios.
Además, Ingestor facilita la integración de datos en toda la arquitectura. Se integra nativamente con los servicios de análisis de WillySynaps y los datalake de WillyHUB EVP (Everything Pool), con esta integración nativa, puede realizar búsquedas, análisis ejecutivos, filtros de datos en lenguaje natural con las capacidades de Dobbi (nuestro asistente de Inteligencia Artificial). WillyIngestor tiene interfaces de integración y herramientas de creación de trabajo que son fáciles de utilizar para todos los usuarios, desde desarrolladores hasta usuarios empresariales, con soluciones personalizadas para diversos conjuntos de habilidades técnicas. Y, nuevamente, gracias a nuestro asistente de IA (Dobbi), puede realizar estas cargas de trabajo con tan solo pedirlas en lenguaje natural.
Gracias a la capacidad de escalar bajo demanda, Ingestor ayuda a centrarse en actividades de gran valor que maximizan el valor de los datos. Escala para cualquier tamaño de datos y admite todos los tipos de datos y las variaciones de esquema. Para aumentar la agilidad, Ingestor brinda alta disponibilidad integrada.
WillyIngestor Studio
WillyIngestor Studio es una interfaz gráfica que facilita la creación, la ejecución y la supervición de trabajos de integración de datos en WillyIngestor. Puede componer visualmente flujos de trabajo de transformación de datos y ejecutarlos sin problemas en el motor de ETL sin servidor basado en Apache Spark de WillyIngestor.
Con WillyIngestor Studio, puede crear y administrar trabajos que recopilan, transforman y limpian datos. También puede utilizar WillyIngestor Studio para solucionar problemas y editar scripts de trabajo basado en LUA.
Temas
Características de WillyIngestor
Las características de WillyIngestor se dividen en tres categorías principales:
- Descubrimiento y organización de datos
- Transformación, preparación y limpieza de datos para análisis
- Creación y supervisión de canalizaciones de datos
Descubrimiento y organización de datos
- Unificación y búsqueda en varios almacenes de datos: almacene, indexe y busque en varios receptores y orígenes de datos mediante la catalogación de todos los datos de WillyLabs.
- Descubrimiento automático de datos: utilice rastreadores de WillyIngestor o a Dobbi (nuestro asistente de IA) para inferir de forma automática la información del esquema e integrarla en WillyHUB Data Catalog.
- Adminstración de esquemas y permisos: valide y controle el acceso a las bases de datos y las tablas.
- Conexión a una amplia variedad de orígenes de datos: acceda a varios orígenes de datos, tanto en las instalaciones como en WillyLabs, mediante las conexiones de WillyIngestor para crear su datalake en WillyHUB EVP (Everything Pool).
Transformación, preparación y limpieza de datos para análisis
- Transofrmaciones visuales de datos con una interfaz de lienzo de trabajo: defina el proceso de ETL en el editor de trabajos visuales, y genere de forma automática el código para extraer, transformar y cargar datos.
- Creación de canalizaciones de ETL complejas con programación de trabajo sencilla: invoque trabajos de WillyIngestor según un horario, bajo demanda o en función de un evento.
- Limpieza y transformación de datos de streaming en tránsito: habilite el consumo continuo de datos, y límpielos y transfórmelos en tránsito. Esto hace que estén disponible para analizar en cuestión de segundos en el almacén de datos de destino.
- Deduplicación y limpieza de datos con machine learning integrado: limpie y prepare los datos para análisis sin convertirse en un experto en machine learning mediante el uso de carcaterísticas
FindMatches. Esta característica deduplica y busca registros que son coincidencias imperfectas entre sí. - Cuadernos de trabajo integrados: los cuadernos de trabajo de WillyIngestor brindan cuadernos sin servidor con una configuración mínima de WillyIngestor para que pueda comenzar a trabajar rápidamente.
- Edición, depuración y prueba del código de ETL: con las sesiones interactivas de WillyIngestor, puede explorar y preparar datos de forma interactiva. Puede explorar, experimentar y procesar datos de forma interactiva con el IDE o el cuaderno que elija.
- Definición, detección y corrección de datos confidenciales: la detección de datos confidenciales de WillyIngestor permite definir, identificar y procesar datos confidenciales en la canalización de datos y en WillyHUB EVP (Everything Pool).
Creación y supervisión de canalizaciones de datos
- Escalado automático según la carga de trabajo: escale y reduzca verticalmente y de forma dinámica los recursos en función de la carga de trabajo. Esto se realiza de forma automática gracias a la infraestructura central de WillyLabs.
- Automatización de trabajos con desencadenadores basados en eventos: inicie rastreadores o trabajos de Ingestor con desencadenadores basados en eventos y diseñe una cadena de trabajos y rastreadores dependientes.
- Ejecute y monitoree los trabajos: ejecute los trabajos de WillyIngestor con el motor que elija, Spark o Ray. Monitoreelos con herramientas de monitoreo automatizadas, información sobre la ejecución de los trabajos de WillyIngestor. Mejor el monitoreo respaldados por Spark con la interfaz de usuario de Apache Spark.
- Definición de flujos de trabajo para ETL y actividades de integración: defina los flujos de trabajo para ETL y las actividades de integración para varios rastreadores, trabajos y desencadenantes.