Herramienta ETL de Talend: Talend Open Studio para el procesamiento de datos



Este blog sobre la herramienta ETL de Talend habla sobre una herramienta ETL de código abierto, Talend para la integración de datos, que proporciona una GUI fácil de usar para realizar el proceso ETL.

Tratar con datos heterogéneos seguramente es una tarea tediosa, pero a medida que aumenta el volumen de datos, se vuelve más tedioso. Aquí es donde las herramientas ETL ayudan a transformar estos datos en datos homogéneos. Ahora, estos datos transformados son fáciles de analizar y derivar la información necesaria de ellos. En este blog sobre Talend ETL, hablaré sobre cómo Talend funciona excepcionalmente como una herramienta ETL para aprovechar valiosos conocimientos de Big Data.

En este blog ETL de Talend, discutiré los siguientes temas:





También puede seguir este elaborado video tutorial donde nuestro El experto explica Talend ETL y el procesamiento de datos con él de manera detallada con ejemplos nítidos.

Java para ejemplos de programas de bucle

Tutorial de Talend ETL | Formación en línea de Talend | Edureka

¿Qué es el proceso ETL?



ETL son las siglas de Extract, Transform and Load. Se refiere a un trío de procesos que se requieren para mover los datos sin procesar desde su fuente a un almacén de datos o una base de datos. Déjame explicarte cada uno de estos procesos en detalle:

  1. Extraer

    La extracción de datos es el paso más importante de ETL que implica acceder a los datos de todos los sistemas de almacenamiento. Los sistemas de almacenamiento pueden ser RDBMS, archivos Excel, archivos XML, archivos planos, ISAM (Método de Acceso Secuencial Indexado), bases de datos jerárquicas (IMS), información visual, etc. Siendo el paso más vital, debe diseñarse de tal manera que no afecta negativamente a los sistemas fuente. El proceso de extracción también asegura que los parámetros de cada artículo se identifiquen de manera distintiva independientemente de su sistema de origen.

  2. Transformar

    La transformación es el próximo proceso en proceso. En este paso, se analizan los datos completos y se les aplican varias funciones para transformarlos en el formato requerido. Generalmente, los procesos utilizados para la transformación de los datos son conversión, filtrado, clasificación, estandarización, eliminación de duplicados, traducción y verificación de la consistencia de varias fuentes de datos.

  3. Carga

    La carga es la etapa final del proceso ETL. En este paso, los datos procesados, es decir, los datos extraídos y transformados, se cargan en un repositorio de datos de destino que suelen ser las bases de datos. Al realizar este paso, debe asegurarse de que la función de carga se realice con precisión, pero utilizando recursos mínimos. Además, durante la carga, debe mantener la integridad referencial para no perder la consistencia de los datos. Una vez que se cargan los datos, puede recoger cualquier fragmento de datos y compararlo con otros fragmentos fácilmente.

Proceso ETL - Talento ETL - Edureka



Ahora que conoce el proceso ETL, es posible que se pregunte cómo realizar todo esto. Bueno, la respuesta es simple usando ETL Tools. En la siguiente sección de este blog ETL de Talend, hablaré sobre las diversas herramientas ETL disponibles.

Varias herramientas ETL

Pero antes de hablar sobre las herramientas ETL, primero comprendamos qué es exactamente una herramienta ETL.

Como ya he comentado, ETL son tres procesos separados que realizan diferentes funciones. Cuando todos estos procesos se combinan en un herramienta de programación única que puede ayudar en la preparación de los datos y en la gestión de varias bases de datos.Estas herramientas tienen interfaces gráficas que aceleran todo el proceso de mapeo de tablas y columnas entre las diversas bases de datos de origen y destino.

Algunos de los principales beneficios de las herramientas ETL son:

  • Es muy fácil de usar ya que elimina la necesidad de escribir los procedimientos y el código.
  • Dado que las herramientas ETL están basadas en GUI, proporcionan una flujo visual de la lógica del sistema.
  • Las herramientas ETL tienen una funcionalidad de manejo de errores incorporada por lo que tienen resiliencia operativa .
  • Cuando se trata de datos grandes y complejos, las herramientas ETL proporcionan una mejor gestión de datos simplificando las tareas y ayudándole con varias funciones.
  • Las herramientas ETL proporcionan un conjunto avanzado de funciones de limpieza en comparación con los sistemas tradicionales.
  • Las herramientas ETL tienen inteligencia empresarial mejorada que impacta directamente las decisiones estratégicas y operativas.
  • Debido al uso de las herramientas ETL, el los gastos se reducen mucho y las empresas pueden generar mayores ingresos.
  • Actuación de las herramientas ETL es mucho mejor ya que la estructura de su plataforma simplifica la construcción de un sistema de almacenamiento de datos de alta calidad.

Hay varias herramientas ETL disponibles en el mercado, que se utilizan de forma bastante popular. Algunos de ellos son:

Entre todas estas herramientas, en este blog ETL de Talend, hablaré sobre cómo Talend es una herramienta ETL.

Herramienta ETL de Talend

Talend open studio para la integración de datos es una de las herramientas ETL de integración de datos más potentes disponibles en el mercado. TOS le permite administrar fácilmente todos los pasos involucrados en el proceso ETL, desde el diseño ETL inicial hasta la ejecución de la carga de datos ETL. Esta herramienta está desarrollada en el entorno de desarrollo gráfico Eclipse. Talend open studio le proporciona el entorno gráfico mediante el cual puede asignar fácilmente los datos entre el sistema de origen y el de destino. Todo lo que necesita hacer es arrastrar y soltar los componentes requeridos de la paleta en el espacio de trabajo, configurarlos y finalmente conectarlos. Incluso le proporciona un repositorio de metadatos desde donde puede reutilizar y reutilizar fácilmente su trabajo. Esto definitivamente lo ayudará a aumentar su eficiencia y productividad con el tiempo.

Con esto, puede concluir que Talend open studio para DI proporciona una integración de datos improvisada junto con una fuerte conectividad, fácil adaptabilidad y un flujo fluido del proceso de extracción y transformación.

En la siguiente sección de este blog ETL de Talend, veamos cómo puede realizar el proceso ETL en Talend.

Talend Open Studio: ejecución de un trabajo ETL

Para demostrar el proceso ETL, extraeré datos de un archivo de Excel, lo transformaré aplicando un filtroalos datos y luego cargar los nuevos datos en una base de datos. A continuación se muestra el formato de mi conjunto de datos de Excel:

A partir de este conjunto de datos, filtraré las filas de datos según el tipo de cliente y almacenaré cada una de ellas en una tabla de base de datos diferente. Para realizar esto, siga los pasos a continuación:

PASO 1: Cree un nuevo trabajo y desde la paleta, arrastre y suelte los siguientes componentes:
  1. tMysqlConnection
  2. tFileExcelInput
  3. tReplicar
  4. ( tFilterRow ) X4
  5. ( tMysqlOutput ) X4

PASO 2: Conecte los componentes juntos como se muestra a continuación:

PASO 3: Vaya a la pestaña de componentes de tMysqlConnection y desde el 'Tipo de propiedad' seleccione el tipo de conexión que está utilizando Integrado o Repositorio. Si está utilizando una conexión integrada, debe especificar los siguientes detalles:
  1. Anfitrión
  2. Puerto
  3. Base de datos
  4. Nombre de usuario
  5. Contraseña

Pero si está utilizando una conexión de Repositorio, recogerá los detalles de forma predeterminada del Repositorio.

diff entre la clase abstracta y la interfaz
ETAPA 4: Haga doble clic en tFileInputExcel y en la pestaña de su componente especifique la ruta de su archivo de origen, el número de filas utilizadas para el encabezado en el campo 'Encabezado' y el número de la columna desde donde Talend debería comenzar a leer sus datos en la 'Primera columna 'campo. En 'Editar esquema', diseñe el esquema de acuerdo con su archivo de conjunto de datos.

PASO 5 :En la pestaña de componentes de tReplicate, haga clic en 'Sincronizar columnas'.

PASO 6: Vaya a la pestaña de componentes del primer tFilterRow y verifique el esquema. Según su condición, puede seleccionar la (s) columna (s) y especificar la función, el operador y el valor sobre el que se deben filtrar los datos.

PASO 7: Repita lo mismo para todos los componentes de tFilterRow.

PASO 8: Finalmente, en la pestaña del componente tMysqlOutput, marque 'Usar una conexión existente'. Luego, especifique el nombre de la tabla en el campo 'Tabla' y seleccione 'Acción en la tabla' y 'Acción en los datos' según el requisito.

PASO 9: Repita lo mismo para todos los componentes tMysqlOutput.

PASO 10: Una vez hecho esto, vaya a la pestaña 'Ejecutar' y ejecute el trabajo.

Esto nos lleva al final de este blog sobre Talend ETL. Concluiría este blog con una simple reflexión que debes seguir:

'El futuro pertenece a quienes pueden controlar sus datos'

Si encontró este ETL de Talend blog, relevante, revisar la por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso Edureka Talend for DI y Big Data Certification Training le ayuda a dominar Talend y Big Data Integration Platform e integrar fácilmente todos sus datos con su almacén de datos y aplicaciones, o sincronizar datos entre sistemas. Tienes una pregunta para nosotros? Menciónalo en la sección de comentarios y nos comunicaremos contigo.