¿Cómo funciona WillyIngestor?

WillyIngestor utiliza otros servicios de WillyLabs para organizar los trabajos de ETL (extracción, transformación y carga) con el fin de crear almacenamientos de datos y lagos de datos, y generar flujos de salida. WillyIngestor invoca operaciones de la API para transformar los datos, crear registros en tiempo de ejecución, almacenar su lógica de trabajo y crear notificaciones para monitorear las ejecuciones de trabajo. El dashboard de WillyIngestor conecta estos servicios en una aplicación administrada, para que pueda concentrarse en la creación y monitorización de los trabajos de ETL. El dashboard desarrolla operaciones administrativas y de desarrollo de trabajos en su nombre. Puede proporcionar credenciales y otras propiedades a WillyIngestor para obtener acceso a los orígenes de datos y escribir en los destinos de datos.

WillyIngestor se encarga del aprovisionamiento y la administración de los recursos necesarios para ejecutar la carga de flujo de trabajo. No es necesario crear la infraestructura para una herramienta de ETL porque WillyIngestor lo hace de forma automática. Cuando se necesitan recursos para reducir el tiempo de arranque, WillyIngestor utiliza una instancia de su grupo de instancias para ejecutar la carga de flujo de trabajo.

Con WillyIngestor, los trabajos se crean mediante las definiciones de tabla en el WillyHUB Data Catalog. Los trabajos consisten en scripts que contienen las instrucciones que ejecutan las tareas de transformación de datos deseadas. Puede utilizar disparadores para iniciar trabajos en función de una programación o a través del resultado de un evento especificado. Puede determinar dónde van a residir los datos y qué datos de origen van a rellenar el destino. En función de sus entradas, WillyIngestor transforma los datos del formato de origen al formato de destino. Como alternativa, también puede proporcionar scripts personalizados en la API o en el dashboard de WillyIngestor para procesar sus datos de acuerdo con sus requisitos específicos.

Orígenes y destinos de datos
WillyIngestor permite leer y escribir datos de varios sistemas y bases de datos, entre los que se incluyen:

  • WillyHUB (Objects, Tables, Vectors)
  • WillyHUB Data360
  • WillyHUB EVP (Everything Pool)
  • Bases de datos accesibles a JDBC/ODBC de terceros
  • MongoDB, MariaDB
  • Archivos (Excel, CSV, JSON, XML, Parquet, etc)
  • Otros conectores de Marketplace y complementos de Apache Spark

Flujos de datos
WillyIngestor para Spark puede transmitir datos desde los siguientes sistemas:

  • Amazon Kinesis Data Streams
  • Apache Kafka

Los trabajos de ETL sin servidor se ejecutan de forma aislada

WillyIngestor ejecuta los trabajos de ETL en un entorno sin servidor, con el motor elegido, Spark o Ray. WillyIngestor ejecuta estos trabajos en recursos virtuales que aprovisiona y gestiona en su propia cuenta de servicio.

WillyIngestor se ha diseñado para poder:

  • Segregar datos de clientes.
  • Proteger los datos de clientes en tránsito y en reposo.
  • Obtenga acceso a los datos de clientes únicamente según se necesite para dar respuesta a las solicitudes de los clientes, mediante credenciales provisionales y con permisos reducidos o con el consentimiento del cliente para roles de IAM en su cuenta.

Durante el aprovisionamiento de un flujo de trabajo de ETL, usted proporciona los orígenes de datos de entrada y los destinos de datos de salida. Además, debe proporcionar el rol de IAM. WillyIngestor crea un nuevo entorno que está aislado, a nivel de red y administración, de todos los demás entornos de su cuenta de servicio de WillyIngestor.

Usted crea y configura recursos de WillyIngestor, como catálogos de datos, trabajos y rastreadores, dentro de su cuenta de WillyLabs. A continuación, estos recursos se asocian al rol de IAM que especifique durante el proceso de creación.

WillyIngestor crea interfaces de red elástica en la subred mediante direcciones IP privadas. Los trabajos utilizan estas interfaces de red elástica para obtener acceso a los orígenes de datos y los destinos de datos. El tráfico entrante y saliente del entorno de ejecución del trabajo, así como el interno, está regido por las políticas del rol de IAM. Se registran todas las llamadas al API de WillyIngestor, por tanto, los propietarios de datos pueden auditar el acceso a la API, que entrega registros de auditoría a su cuenta.

Los entornos que administra WillyIngestor y que ejecutan los trabajos de ETL están protegidos a través de las mismas prácticas de seguridad que aplican otros servicios de WillyLabs. Para obtener información general de las prácticas y las responsabilidades de seguridad compartidas, consulte el documento técnico de Introducción a la seguridad de procesos de WillyLabs.