Saltar al contenido principal

ETL

Extraer-Transformar-Cargar · Integración de datos

Descripción

Componente que incorpora información proveniente de fuentes externas al sistema de información, adaptándola al modelo de datos interno. Su función es garantizar que los datos que ingresan sean coherentes, actualizados y compatibles con la estructura del sistema. Para ello realiza tres tareas: extrae los datos de sus fuentes originales, los transforma según las reglas de negocio o propósitos de uso, y los carga en la fuente de destino.

Capacidades mandatorias

Capacidades mandatorias
  • Incorpora las tres etapas del proceso ETL: extracción de datos, transformación según las reglas del sistema y carga en el repositorio central
  • Asegura la coherencia y compatibilidad de la información importada con el modelo de datos interno
  • Opera sin intervención del usuario una vez disparado, integrando datos de manera autónoma
  • Permite la integración automatizada de grandes volúmenes de datos provenientes de fuentes heterogéneas

Capacidades adicionales

Capacidades adicionales
  • Programación periódica (scheduling): ejecuta el ETL en intervalos definidos (cada hora, diariamente, etc.) mediante un planificador, sin requerir un disparo explícito
  • Trigger manual: permite a un usuario autorizado iniciar la ejecución del ETL bajo demanda mediante una acción explícita
  • Logging de actividad: registra la ejecución (errores, tiempos, volumen de datos procesados) para auditoría y monitoreo
  • Reintentos automáticos: reintenta etapas fallidas (típicamente la extracción) ante errores transitorios de red o fuentes no disponibles temporalmente

Delimitaciones

Qué no es
  • No define políticas de acceso o permisos sobre los datos; solo los incorpora al sistema
  • No reemplaza los procesos autónomos que derivan, calculan o analizan información dentro del sistema una vez incorporada
  • No provee interfaz visible al usuario, aunque puede ser monitoreado o configurado desde una consola o servicio externo

Flujo de información

Entrada

Datos provenientes de fuentes externas (APIs, archivos estructurados, bases de datos externas) junto con las reglas de transformación

Salida

Datos transformados y cargados en el repositorio central del sistema, coherentes con su modelo de datos interno

Modalidades

  • ETL Batch: procesa grandes volúmenes de datos en lotes programados (diario, semanal)
  • ETL en tiempo real (streaming): procesa datos continuamente a medida que llegan, con baja latencia
  • ELT (Extract-Load-Transform): carga los datos sin transformar y aplica transformaciones posteriormente dentro del repositorio de destino

Dependencias típicas

  • Fuente de datos externos (APIs, servidores, sensores, archivos)
  • Repositorio de destino (Base de Datos del sistema)
  • Mecanismo de programación o scheduler para su ejecución, cuando esa capacidad está presente
  • Reglas de negocio que definen el tratamiento de los datos

Ejemplos

Apache Airflow — orquestación ETL: extrae datos de Amazon S3, transforma con Apache Spark, carga en Redshift o MongoDB

Mapeo al Tablero Digital

Entradas ManualesOpcional
Entradas AutomáticasSiempre
Conceptos de DatosSiempre
Salidas por DemandaNo
Salidas AutomáticasNo
Procesos AutónomosSiempre
SecciónVínculoObservación
Entradas ManualesOpcionalTrigger manual de la ejecución del ETL, cuando esa capacidad está presente.
Entradas AutomáticasSiempreLa incorporación de datos desde fuentes externas al sistema.
Conceptos de DatosSiempreLas entidades cargadas en el repositorio del sistema tras la transformación.
Salidas por DemandaNo
Salidas AutomáticasNo
Procesos AutónomosSiempreLa transformación de los datos según las reglas del sistema. Logging y reintentos automáticos cuando esas capacidades están presentes.

Ejemplo de Tablero Digital

Tablero Digital del ETL con tarjetas de ejemplo