Informatica ETL: una guía para principiantes para comprender ETL con Informatica PowerCenter



Comprender los conceptos de Informatica ETL y las diversas etapas del proceso ETL y practicar un caso de uso que involucre la base de datos de empleados.

El propósito de Informatica ETL es proporcionar a los usuarios, no solo un proceso de extracción de datos de los sistemas de origen y llevarlos al almacén de datos, sino también proporcionar a los usuarios una plataforma común para integrar sus datos de varias plataformas y aplicaciones.Esto ha llevado a un aumento de la demanda de .Antes de hablar sobre Informatica ETL, primero comprendamos por qué necesitamos ETL.

¿Por qué necesitamos ETL?

Cada empresaestos días tienen que procesar grandes conjuntos de datos de diversas fuentes. Estos datos deben procesarse para brindar información detallada para la toma de decisiones comerciales. Pero, con bastante frecuencia, estos datos tienen los siguientes desafíos:





  • Las grandes empresas generan una gran cantidad de datos y una gran cantidad de datos puede estar en cualquier formato. Estarían disponibles en múltiples bases de datos y muchos archivos no estructurados.
  • Estos datos se deben recopilar, combinar, comparar y hacer que funcionen como un todo integrado. ¡Pero las diferentes bases de datos no se comunican bien!
  • Muchas organizaciones han implementado interfaces entre estas bases de datos, pero se enfrentan a los siguientes desafíos:
    • Cada par de bases de datos requiere una interfaz única.
    • Si cambia una base de datos, es posible que deba actualizar muchas interfaces.

A continuación puede ver las distintas bases de datos de una organización y sus interacciones:

Varios conjuntos de datos de una organización - Informatica - ETL - Edureka

Varias bases de datos utilizadas por diferentes departamentos de una organización



Diferentes interacciones de las bases de datos en una organización

Como se vio anteriormente, una organización puede tener varias bases de datos en sus diversos departamentos y la interacción entre ellas se vuelve difícil de implementar ya que se deben crear varias interfaces de interacción para ellas. Para superar estos desafíos, la mejor solución posible es utilizar los conceptos de Integración de datos lo que permitiría que los datos de diferentes bases de datos y formatos se comuniquen entre sí. La siguiente figura nos ayuda a comprender cómo la herramienta de integración de datos se convierte en una interfaz común para la comunicación entre las distintas bases de datos.

Varias bases de datos conectadas a través de la integración de datos



Pero existen diferentes procesos disponibles para realizar la Integración de Datos. Entre estos procesos, ETL es el proceso más óptimo, eficiente y confiable. A través de ETL, el usuario no solo puede traer los datos de varias fuentes, sino que puede realizar las diversas operaciones en los datos antes de almacenarlos en el destino final.

Entre las diversas herramientas ETL disponibles en el mercado, Informatica PowerCenter es la plataforma de integración de datos líder en el mercado. Tras realizar pruebas en casi 500.000 combinaciones de plataformas y aplicaciones, Informatica PowerCenter inter opera con la gama más amplia posible de estándares, sistemas y aplicaciones dispares. Entendamos ahora los pasos involucrados en el proceso ETL de Informatica.

ETL informática | Arquitectura de Informatica | Tutorial de Informatica PowerCenter | Edureka

Este tutorial de Edureka Informatica le ayuda a comprender los fundamentos de ETL con Informatica Powercenter en detalle.

Pasos en el proceso ETL de Informatica:

Antes de pasar a los distintos pasos involucrados en Informatica ETL, veamos una descripción general de ETL. En ETL, Extracción es donde los datos se extraen de fuentes de datos homogéneas o heterogéneas, Transformación donde los datos se transforman para almacenarlos en el formato o estructura adecuados con el fin de realizar consultas y análisis y Cargar donde los datos se cargan en la base de datos de destino final, almacén de datos operativo, data mart o almacén de datos. La siguiente imagen le ayudará a comprender cómo se lleva a cabo el proceso ETL de Informatica.

Descripción general del proceso ETL

Como se vio anteriormente, Informatica PowerCenter puede cargar datos de varias fuentes y almacenarlos en un único almacén de datos. Ahora, veamos los pasos involucrados en el proceso ETL de Informatica.

Hay principalmente 4 pasos en el proceso ETL de Informatica, vamos a entenderlos ahora en profundidad:

  1. Extraer o capturar
  2. Frotar o limpiar
  3. Transformar
  4. Carga e índice

1. Extraer o capturar: Como se ve en la imagen a continuación, la captura o extracción es el primer paso del proceso ETL de Informatica.Es el proceso de obtener una instantánea del subconjunto elegido de datos de la fuente, que debe cargarse en el almacén de datos. Una instantánea es una vista estática de solo lectura de los datos de la base de datos. El proceso de extracción puede ser de dos tipos:

  • Extracto completo: Los datos se extraen completamente del sistema de origen y no es necesario realizar un seguimiento de los cambios en el origen de datos desde la última extracción exitosa.
  • Extracto incremental: Esto solo capturará los cambios que se hayan producido desde la última extracción completa.

Fase 1: Extraer o capturar

2. Friegue o limpie: Este es el proceso de limpieza de los datos provenientes de la fuente mediante el uso de varias técnicas de reconocimiento de patrones y de IA para mejorar la calidad de los datos que se llevan adelante. Por lo general, los errores como errores ortográficos, fechas erróneas, uso de campo incorrecto, direcciones no coincidentes, datos faltantes, datos duplicados, inconsistencias sonresaltado y luego corregido o eliminadoen este paso. Además, en este paso se realizan operaciones como decodificación, reformateo, sellado de tiempo, conversión, generación de claves, fusión, detección / registro de errores, localización de datos faltantes. Como se ve en la imagen siguiente, este es el segundo paso del proceso ETL de Informatica.

Fase 2: depuración o limpieza de datos

3. Transformar: Como se ve en la imagen a continuación, este es el tercer y más esencial paso del proceso ETL de Informatica. Transformaciones es la operación de convertir datos del formato del sistema de origen al esqueleto de Data Warehouse. Una transformación se utiliza básicamente para representar un conjunto de reglas, que definen el flujo de datos y cómo se cargan los datos en los destinos. Para saber más sobre Transformación, consulte Transformaciones en Informatica blog.

Fase 3: Transformación

4. Carga e índice: Este es el paso final del proceso ETL de Informatica como se ve en la imagen a continuación. En esta etapa, colocamos los datos transformados en el almacén y creamos índices para los datos. Hay dos tipos principales de carga de datos disponibles según el proceso de carga:

  • Carga completa o carga a granel :El proceso de carga de datos cuando lo hacemos por primera vez. El trabajo extrae todo el volumen de datos de una tabla de origen y se carga en el almacén de datos de destino después de aplicar las transformaciones necesarias. Será un trabajo que se ejecutará una sola vez, después de lo cual los cambios solo se capturarán como parte de un extracto incremental.
  • Carga incremental o carga de actualización : Solo los datos modificados se actualizarán en el destino seguido de la carga completa. Los cambios se capturarán comparando la fecha de creación o modificación con la última fecha de ejecución del trabajo.Los datos modificados solo se extraen de la fuente y se actualizarán en el destino sin afectar los datos existentes.

Fase 4: carga e índice

Si ha entendido el proceso ETL de Informatica, ahora estamos en una mejor posición para apreciar por qué Informatica es la mejor solución en tales casos.

Características de Informatica ETL:

Para todas las operaciones de integración de datos y ETL, Informatica nos ha proporcionado Informatica PowerCenter . Veamos ahora algunas características clave de Informatica ETL:

  • Proporciona la posibilidad de especificar una gran cantidad de reglas de transformación con una GUI.
  • Genere programas para transformar datos.
  • Maneja múltiples fuentes de datos.
  • Admite operaciones de extracción, limpieza, agregación, reorganización, transformación y carga de datos.
  • Genera automáticamente programas para la extracción de datos.
  • Carga de alta velocidad de almacenes de datos de destino.

A continuación, se muestran algunos de los escenarios típicos en los que se utiliza Informatica PowerCenter:

  1. Migración de datos:

Una empresa ha comprado una nueva aplicación de cuentas a pagar para su departamento de cuentas. PowerCenter puede mover los datos de la cuenta existente a la nueva aplicación. La siguiente figura le ayudará a comprender cómo puede utilizar Informatica PowerCenter para la migración de datos. Informatica PowerCenter puede conservar fácilmente el linaje de los datos para fines fiscales, contables y otros fines exigidos por la ley durante el proceso de migración de datos.

Migración de datos de una aplicación de contabilidad anterior a una nueva aplicación

  1. Integración de aplicaciones:

Supongamos que la empresa A compra la empresa B. Por lo tanto, para lograr los beneficios de la consolidación, el sistema de facturación de la Compañía B debe estar integrado en el sistema de facturación de la Compañía A, lo que se puede hacer fácilmente con Informatica PowerCenter. La siguiente figura le ayudará a comprender cómo puede utilizar Informatica PowerCenter para la integración de aplicaciones entre las empresas.

Aplicación de integración entre empresas

  1. Almacenamiento de datos

Las acciones típicas requeridas en los almacenes de datos son:

  • Combinar información de muchas fuentes para su análisis.
  • Mover datos de muchas bases de datos al almacén de datos.

Todos los casos típicos anteriores se pueden realizar fácilmente con Informatica PowerCenter. A continuación, puede ver que Informatica PowerCenter se utiliza para combinar los datos de varios tipos de bases de datos como Oracle, SalesForce, etc. y llevarlos a un almacén de datos común creado por Informatica PowerCenter.

Datos de varias bases de datos integradas en un almacén de datos común

  1. Middleware

Supongamos que una organización minorista está utilizando SAP R3 para sus aplicaciones minoristas y SAP BW como su almacén de datos. No es posible una comunicación directa entre estas dos aplicaciones debido a la falta de una interfaz de comunicación. Sin embargo, Informatica PowerCenter se puede utilizar como middleware entre estas dos aplicaciones. En la siguiente imagen, puede ver la arquitectura de cómo se utiliza Informatica PowerCenter como middleware entre SAP R / 3 y SAP BW. Las aplicaciones de SAP R / 3 transfieren sus datos al marco ABAP que luego los transfiere alSAP Point of Sale (POS) y SAPFacturas de servicios (BOS). Informatica PowerCenter ayuda a transferir datos desde estos servicios a SAP Business Warehouse (BW).

Informatica PowerCenter como middleware en SAP Retail Architecture

Si bien ha visto algunas características clave y escenarios típicos de Informatica ETL, espero que comprenda por qué Informatica PowerCenter es la mejor herramienta para el proceso ETL. Veamos ahora un caso de uso de Informatica ETL.

Caso de uso: unir dos tablas para obtener una única tabla detallada

Supongamos que desea proporcionar transporte de departamento a sus empleados, ya que los departamentos están ubicados en varias ubicaciones. Para hacer esto, primero necesita saber a qué departamento pertenece cada empleado y la ubicación del departamento. Sin embargo, los detalles de los empleados se almacenan en diferentes tablas y es necesario unir los detalles del Departamento a una base de datos existente con los detalles de todos los Empleados. Para hacer esto, primero cargaremos ambas tablas en Informatica PowerCenter, realizaremos la Transformación del calificador de origen en los datos y finalmente cargaremos los detalles en la base de datos de destino..Empecemos:

Paso 1 : Abra PowerCenter Designer.

A continuación se muestra la página de inicio de Informatica PowerCenter Designer.

Conectemos ahora al repositorio. En caso de que no haya configurado sus repositorios o tenga algún problema, puede consultar nuestra blog.

Paso 2: Haga clic derecho en su repositorio y seleccione la opción de conexión.

Al hacer clic en la opción de conexión, se le pedirá la siguiente pantalla, solicitando su nombre de usuario y contraseña del repositorio.

Una vez que se haya conectado a su repositorio, debe abrir su carpeta de trabajo como se muestra a continuación:

Se le pedirá que le pregunte el nombre de su mapeo. Especifique el nombre de su mapeo y haga clic en Aceptar (lo he nombrado como m-EMPLEADO ).

Paso 3: Ahora carguemos las tablas desde la base de datos, comience conectándose a la base de datos. Para hacer esto, seleccione la pestaña Fuentes y la opción Importar desde la base de datos como se ve a continuación:

Al hacer clic en Importar desde la base de datos, aparecerá la siguiente pantalla que le pedirá los detalles de su base de datos y su nombre de usuario y contraseña para la conexión (estoy usando la base de datos de Oracle y el usuario de recursos humanos).

Haga clic en Conectar para conectarse a su base de datos.

Etapa 4: Como deseo unirme al EMPLEADOS y DEPARTAMENTO tablas, las seleccionaré y haré clic en Aceptar.
Las fuentes estarán visibles en el espacio de trabajo del diseñador de mapas como se muestra a continuación.

Paso 5: De manera similar, cargue la tabla de destino en el mapeo.

Paso 6: Ahora vinculemos el calificador de origen y la tabla de destino. Haga clic derecho en cualquier lugar en blanco del espacio de trabajo y seleccione Autolink como se ve a continuación:

A continuación se muestra el mapeo vinculado por Autolink.

Paso 7: Como necesitamos vincular ambas tablas al calificador de origen, seleccione las columnas de la tabla Departamento y colóquelas en el calificador de origen como se muestra a continuación:

Coloque los valores de la columna en el calificador de origen SQ_EMPLOYEES .

A continuación se muestra el calificador de fuente actualizado.

Paso 8: Haga doble clic en Source Qualifier para editar la transformación.

Obtendrá la ventana emergente Editar transformación como se ve a continuación. Haga clic en la pestaña Propiedades.

Paso 9: En la pestaña Propiedades, haga clic en el campo Valor de la fila Unión definida por el usuario.

Obtendrá el siguiente editor SQL:

Paso 10: Entrar EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID como condición para unir ambas tablas en el campo SQL y hacer clic en Aceptar.

Paso 11: Ahora haga clic en la fila Consulta SQL para generar el SQL para unirse como se ve a continuación:

establecer classpath java en linux

Obtendrá el siguiente Editor SQL, haga clic en la opción Generar SQL.

Se generará el siguiente SQL para la condición que habíamos especificado en el paso anterior. Haga clic en Aceptar.

Paso 12: Haga clic en Aplicar y Aceptar.

A continuación se muestra el mapeo completo.

Hemos completado el diseño de cómo deben transferirse los datos desde el origen al destino. Sin embargo, la transferencia real de datos aún está por ocurrir y para eso necesitamos usar el diseño de flujo de trabajo de PowerCenter. La ejecución del flujo de trabajo conducirá a la transferencia de datos desde el origen al destino. Para saber más sobre el flujo de trabajo, consulte nuestro Tutorial de Informatica: flujo de trabajo blog

Paso 13: Le iniciemos ahora el Administrador de flujo de trabajo haciendo clic en el icono W como se muestra a continuación:

A continuación se muestra la página de inicio del diseñador de flujo de trabajo.

Paso 14: Creemos ahora un nuevo flujo de trabajo para nuestro mapeo. Haga clic en la pestaña Flujo de trabajo y seleccione Crear opción.

Obtendrá la siguiente ventana emergente. Especifique el nombre de su flujo de trabajo y haga clic en Aceptar.

Paso 15 : Una vez que se crea un flujo de trabajo, obtenemos el icono de inicio en el espacio de trabajo de Workflow Manager.

Agreguemos ahora una nueva sesión al espacio de trabajo como se ve a continuación haciendo clic en el icono de sesión y luego en el espacio de trabajo:

Haga clic en el espacio de trabajo para colocar el icono de sesión.

Paso 16: Al agregar la sesión, debe seleccionar el Mapeo que creó y guardó en los pasos anteriores. (Lo había guardado como m-EMPLOYEE).

A continuación se muestra el espacio de trabajo después de agregar el icono de sesión.

Paso 17 : Ahora que ha creado una nueva sesión, debemos vincularla a la tarea de inicio. Podemos hacerlo haciendo clic en el icono Vincular tarea como se ve a continuación:

Haga clic en el icono Inicio primero y luego en el icono Sesión para establecer un enlace.

A continuación se muestra un flujo de trabajo conectado.

Paso 18: Ahora que hemos completado el diseño, comencemos el flujo de trabajo. Haga clic en la pestaña Flujo de trabajo y seleccione la opción Iniciar flujo de trabajo.

Administrador de flujo de trabajo iniciando Monitor de flujo de trabajo.

Paso 19 : Una vez que iniciamos el flujo de trabajo, Workflow Manager se inicia automáticamenteyle permite monitorear la ejecución de su flujo de trabajo. A continuación, puede ver que el Monitor de flujo de trabajo muestra el estado de su flujo de trabajo.

Paso 20: Para comprobar el estado del flujo de trabajo, haga clic derecho en el flujo de trabajo y seleccione Obtener propiedades de ejecución como se muestra a continuación:

Seleccione la pestaña Estadísticas de origen / destino.

A continuación, puede ver el número de filas que se han transferido entre el origen y el destino después de la transformación.

También puede verificar su resultado verificando su tabla de objetivos como se ve a continuación.

Espero que este blog ETL de Informatica haya sido útil para mejorar su comprensión de los conceptos de ETL utilizando Informatica y haya generado suficiente interés para que usted aprenda más sobre Informatica.

Si este blog le resultó útil, también puede consultar nuestra serie de blogs de tutoriales de Informatica , Tutorial de Informatica: Comprensión de Informatica 'de adentro hacia afuera' y Transformaciones de Informatica: el corazón y el alma de Informatica PowerCenter . En caso de que esté buscando detalles sobre la certificación de Informatica, puede consultar nuestro blog Certificación de Informatica: todo lo que hay que saber .

Si ya ha decidido emprender Informatica como carrera, le recomiendo que eche un vistazo a nuestra página del curso. La capacitación de Certificación de Informatica en Edureka lo convertirá en un experto en Informatica a través de sesiones dirigidas por un instructor en vivo y capacitación práctica utilizando casos de uso de la vida real.