ETL
Descripción
Componente que incorpora información proveniente de fuentes externas al sistema de información, adaptándola al modelo de datos interno. Su función es garantizar que los datos que ingresan sean coherentes, actualizados y compatibles con la estructura del sistema. Para ello realiza tres tareas: extrae los datos de sus fuentes originales, los transforma según las reglas de negocio o propósitos de uso, y los carga en la fuente de destino.
Capacidades mandatorias
Capacidades mandatorias
- Incorpora las tres etapas del proceso ETL: extracción de datos, transformación según las reglas del sistema y carga en el repositorio central
- Asegura la coherencia y compatibilidad de la información importada con el modelo de datos interno
- Opera sin intervención del usuario una vez disparado, integrando datos de manera autónoma
- Permite la integración automatizada de grandes volúmenes de datos provenientes de fuentes heterogéneas
Capacidades adicionales
Capacidades adicionales
- Programación periódica (scheduling): ejecuta el ETL en intervalos definidos (cada hora, diariamente, etc.) mediante un planificador, sin requerir un disparo explícito
- Trigger manual: permite a un usuario autorizado iniciar la ejecución del ETL bajo demanda mediante una acción explícita
- Logging de actividad: registra la ejecución (errores, tiempos, volumen de datos procesados) para auditoría y monitoreo
- Reintentos automáticos: reintenta etapas fallidas (típicamente la extracción) ante errores transitorios de red o fuentes no disponibles temporalmente
Delimitaciones
Qué no es
- No define políticas de acceso o permisos sobre los datos; solo los incorpora al sistema
- No reemplaza los procesos autónomos que derivan, calculan o analizan información dentro del sistema una vez incorporada
- No provee interfaz visible al usuario, aunque puede ser monitoreado o configurado desde una consola o servicio externo
Flujo de información
Entrada
Datos provenientes de fuentes externas (APIs, archivos estructurados, bases de datos externas) junto con las reglas de transformación
→
Salida
Datos transformados y cargados en el repositorio central del sistema, coherentes con su modelo de datos interno
Modalidades
- ETL Batch: procesa grandes volúmenes de datos en lotes programados (diario, semanal)
- ETL en tiempo real (streaming): procesa datos continuamente a medida que llegan, con baja latencia
- ELT (Extract-Load-Transform): carga los datos sin transformar y aplica transformaciones posteriormente dentro del repositorio de destino
Dependencias típicas
- Fuente de datos externos (APIs, servidores, sensores, archivos)
- Repositorio de destino (Base de Datos del sistema)
- Mecanismo de programación o scheduler para su ejecución, cuando esa capacidad está presente
- Reglas de negocio que definen el tratamiento de los datos
Ejemplos
Apache Airflow — orquestación ETL: extrae datos de Amazon S3, transforma con Apache Spark, carga en Redshift o MongoDB
Mapeo al Tablero Digital
Entradas ManualesOpcional
Entradas AutomáticasSiempre
Conceptos de DatosSiempre
Salidas por DemandaNo
Salidas AutomáticasNo
Procesos AutónomosSiempre
| Sección | Vínculo | Observación |
|---|---|---|
| Entradas Manuales | Opcional | Trigger manual de la ejecución del ETL, cuando esa capacidad está presente. |
| Entradas Automáticas | Siempre | La incorporación de datos desde fuentes externas al sistema. |
| Conceptos de Datos | Siempre | Las entidades cargadas en el repositorio del sistema tras la transformación. |
| Salidas por Demanda | No | — |
| Salidas Automáticas | No | — |
| Procesos Autónomos | Siempre | La transformación de los datos según las reglas del sistema. Logging y reintentos automáticos cuando esas capacidades están presentes. |
Ejemplo de Tablero Digital
Tablero Digital del ETL con tarjetas de ejemplo