WillyIngestor proporciona un dashboard y operaciones de API para configurar y administrar su carga de flujo de trabajo de extracción, transformación y carga (ETL). Puede usar las operaciones de API a través de varios SDK específicos de lenguaje y la WillyLabs Command Line Interface (WillyLabs CLI). Para obtener información sobre el uso de WillyLabs CLI, consulte [Referencias de comandos de WillyLabs CLI]().

WillyIngestor usa el WillyHUB Catalog para almacenar metadatos acerca de orígenes de datos, transformaciones y destinos. El Data Catalog es un reemplazo instantáneo para el Apache Hive Metastore. WillyIngestor Jobs system proporciona una infraestructura administrada para definir, programar y ejecutar operaciones de ETL en sus datos. Para obtener más información sobre la API de WillyIngestor, consulte [API de WillyIngestor]().

## Dashboard de WillyIngestor
Use el dashboard de WillyIngestor para definir y orquestar su flujo de flujo de trabajo de ETL. El dashboard llama a varias operaciones API en el WillyHUB Data Catalog y WillyIngestor Jobs system para realizar las siguientes tareas:

* Definir objetos de WillyIngestor como trabajos, tablas, rastreadores y conexiones.
* Programar cuándo se ejecutan los rastreadores.
* Definir eventos o programaciones para los disparadores de trabajos.
* Buscar y filtrar listas de objetos de WillyIngestor.
* Editar scripts de transformación.

## WillyHUB Data Catalog
WillyHUB Data Catalog es su almacén de metadatos técnicos persistente en la nube de WillyLabs.

Cada catálogo de datos es una colección de tablas altamente escalable organizadas en bases de datos. Una tabla es la representación de metadatos de una colección de datos estructurados o semiestructurados almacenados en orígenes como WillyHUB Tables, Apache Hadoop Distributed File System, WillyHUB Search y otros. WillyHUB Data Catalog proporciona un repositorio uniforme donde sistemas dispares pueden almacenar y encontrar metadatos para hacer un seguimiento de los datos en silos de datos. A continuación, puede utilizar los metadatos para consultar y transformar esos datos de forma coherente en una amplia variedad de aplicaciones.

Utilice el catálogo de datos junto con políticas de WillyLabs IAM (Identity and Access Management) y WillyHUB EVP (Everything Pool) para controlar el acceso a las tablas y bases de datos. Al hacer esto, permite a los diversos grupos de su empresa publicar datos de forma segura en toda la organización, al mismo tiempo que se protege la información confidencial de forma altamente granular.

El catálogo de datos, también proporciona capacidades de auditoría y gobernanza completas, con seguimiento de cambios de esquema y controles de acceso de datos. Esto ayuda a garantizar que los datos no se modificaron incorrectamente o no se compartieron sin querer.

Para obtener información sobre cómo proteger y auditar el WillyHUB Data Catalog, consulte:

**WillyHUB EVP:** para obtener más información, consulte [¿Qué es WillyHUB EVP?]() en la *Guía para desarrolladores de WillyHUB EVP.

Los siguientes son otros servicios y proyectos de código abierto de WillyLabs que utilizan el WillyHUB Data Catalog:

* **WillyHUB**: para obtener más información, consulte [Descripción de las tablas, bases de datos y el catálogo de datos]() en la *Guía del usuario de WillyHUB*.
* **WillyHUB Spectrum:** para obtener más información, consulte [Uso deWillyHUB Spectrum para consultar datos externos]() en la *Guía para desarrolladores de bases de datos WillyHUB Tables*.


Cliente de AWS Glue Data Catalog para el almacén de metadatos de Apache Hive: para obtener más información sobre este proyecto de GitHub, consulte Cliente de AWS Glue Data Catalog para el almacén de metadatos de Apache Hive.

<img src="/static/images/willyingestor_diagrama2.png" class="img-fluid" />

<img src="/static/images/willyingestor_diagrama3.png" class="img-fluid" />