Cloudera Hadoop: Introducción a CDH Distribution



Este blog de Edureka sobre Cloudera Hadoop Tutorial le dará una visión completa de los diferentes componentes de Cloudera como Cloudera Manager, Parcels, Hue, etc.

Con la creciente demanda de Big Data, Apache Hadoop esaEl corazón de la revolución, ha cambiado la forma en que organizamos y calculamos los datos. La necesidad de las organizaciones de alinear Hadoop con sus necesidades comerciales ha impulsado la aparición de distribuciones comerciales. Las distribuciones comerciales de Hadoop generalmente están empaquetadas con características, diseñadas para agilizar la implementación de Hadoop. Cloudera Hadoop Distribution proporciona una plataforma escalable, flexible e integrada que facilita la administración de volúmenes y variedades de datos en rápido aumento en su empresa.

En este blog sobre Cloudera Hadoop Distribution, cubriremos los siguientes temas:





Cloudera Hadoop: Introducción a Hadoop

Hadoop es un marco de trabajo de código abierto de Apache que almacena y procesa Big Data en un entorno distribuidoa través declúster usando modelos de programación simples. Hadoop proporciona computación en paralelo además del almacenamiento distribuido.Para obtener más información sobre Hadoop en detalle en puedes referirte a esto

Después de esta breve introducción a Hadoop, permítanme ahora explicar los diferentes tipos de distribución de Hadoop.



Cloudera Hadoop: distribuciones de Hadoop

Dado que Apache Hadoop es de código abierto, muchas empresas han desarrollado distribuciones que van más allá del código fuente abierto original. Esto es muy similar a las distribuciones de Linux como RedHat, Fedora y Ubuntu. Cada una de las distribuciones de Linux admite sus propias funcionalidades y características, como una GUI fácil de usar en Ubuntu. Similar, sombrero rojo es popular dentro de las empresas porque ofrece soporte y también proporciona ideología para realizar cambios en cualquier parte del sistema a voluntad. Red Hat lo libera de los problemas de compatibilidad de software. Esto suele ser un gran problema para los usuarios.que están haciendo la transición de Windows.

Asimismo, existen 3 tipos principales de distribuciones de Hadoop que tienen su propio conjunto de funcionalidades y características y se construyen bajo el HDFS base.

Cloudera vs MapR vs Hortonworks

Figura: MapR vs Hortonworks vs Cloudera

Figura: MapR vs Hortonworks vs Cloudera



Distribución de Cloudera Hadoop

Cloudera es la tendencia del mercado en el espacio Hadoop y es el primero en lanzar la distribución comercial de Hadoop. Ofrece servicios de consultoría para cerrar la brecha entre 'lo que ofrece Apache Hadoop' y 'lo que necesitan las organizaciones'.

La distribución de Cloudera es:

  • Rápido para los negocios : Desde el análisis hasta la ciencia de datos y todo lo demás, Cloudera ofrece el rendimiento que necesita para desbloquear el potencial de los datos ilimitados.
  • Hace que Hadoop sea fácil de administrar : Con Cloudera Manager, los asistentes automatizados le permiten implementar rápidamente su clúster, independientemente de la escala o el entorno de implementación.
  • Seguro sin compromiso: Satisface las estrictas necesidades de cumplimiento y seguridad de los datos sin sacrificar la agilidad empresarial. Cloudera proporciona un enfoque integrado para la seguridad y el gobierno de los datos.

Horton-Works Distribución

La plataforma de datos Horton-Works (HDP) es una plataforma de código abierto completamente diseñada para manipular datos de muchas fuentes y formatos. La plataforma incluye varias herramientas de Hadoop, como el sistema de archivos distribuido de Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive y componentes adicionales.

También admite funciones como:

  • HDP hace Hive Más rápido a través de su nuevo proyecto Stinger.
  • HDP evita el bloqueo del proveedor prometiendo una versión bifurcada de Hadoop.
  • HDP se centra en mejorar la usabilidad de la plataforma Hadoop.

Distribución MapR

MapR es un proveedor de soluciones de Hadoop centrado en la plataforma, al igual que HortonWorks y Cloudera. MapR integra su propio sistema de base de datos, conocido como MapR-DB, al tiempo que ofrece servicios de distribución de Hadoop. Se afirma que MapR-DB es de cuatro a siete veces más rápido que la base de datos de Hadoop estándar, es decir, HBase, que se ejecuta en otras distribuciones.

Tiene sus características intrigantes como:

  • Es la única distribución de Hadoop que incluye Pig, Hive y Sqoop sin dependencias de Java, ya que se basa en MapR-File System.
  • MapR es la distribución de Hadoop más lista para la producción con muchas mejoras que la hacen más fácil de usar, más rápida y confiable.

Ahora analicemos en profundidad la distribución de Cloudera Hadoop.

Suscríbete a nuestro canal de YouTube para recibir nuevas actualizaciones ...

Cloudera Hadoop: Distribución de Cloudera

Cloudera es el jugador más conocido en el espacio Hadoop para lanzar la primera distribución comercial de Hadoop.

Fig: Distribución de Cloudera Hadoop

Cloudera Hadoop Distribution admite el siguiente conjunto de características:

  1. El CDH de Cloudera comprende todos los componentes de código abierto, se dirige a implementaciones de clase empresarial y es una de las distribuciones comerciales de Hadoop más populares.
  2. Conocido por sus innovaciones, Cloudera fue el primero en ofrecer SQL para Hadoop con su Impala motor de consulta.
  3. La consola de administración - Gerente de Cloudera , es fácil de usar e implementar con la rica interfaz de usuario que muestra toda la información del clúster de una manera organizada y limpia.
  4. En CDH, puede agregar servicios al clúster en funcionamiento sin ninguna interrupción.
  5. Otras adiciones de Cloudera incluyen seguridad, interfaz de usuario e interfaces para la integración con aplicaciones de terceros.
  6. CDH proporciona Plantillas de nodo es decir, permite la creación de un grupo de nodos en un clúster Hadoop con configuración variable. Erradica el uso de la misma configuración en todo el clúster de Hadoop.
  7. También admite:
    • Fiabilidad
      Los proveedores de Hadoop actúan rápidamente en respuesta cuando se detecta un error. Con la intención de hacer que las soluciones comerciales sean más estables, los parches y las correcciones se implementan de inmediato.
    • Apoyo
      Los proveedores de Cloudera Hadoop brindan orientación y asistencia técnica que facilita a los clientes la adopción de Hadoop para tareas de nivel empresarial y aplicaciones de misión crítica.

      invertir un número en java
    • Lo completo
      Los proveedores de Hadoop combinan sus distribuciones con otras herramientas complementarias que ayudan a los clientes a personalizar la aplicación Hadoop para abordar sus tareas específicas.

Las distribuciones de Cloudera vienen con 2 tipos diferentes de ediciones.

  1. Edición Cloudera Express
  2. Edición empresarial de Cloudera

Ahora veamos las diferencias entre ellos.

Características Cloudera-Express Cloudera-Enterprise
Gestión de clústeres
1. Gestión de varios clústeressisi
2. Gestión de recursossisi
Despliegue
1. Soporte para CDH 4 y 5sisi
2. Actualización progresiva de CDHNosi
Gestión de configuración y servicio
1. Administre los servicios HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark y Accumulosisi
2. Reinicio progresivo de los serviciosNosi
Seguridad
1. Autenticación LDAPNosi
2. Autenticación SAMLNosi
Monitoreo y diagnóstico
1. Historial de saludsisi
Gestión de alertas
1. Alerta por correo electrónicosisi
2. Alerta vía SNMPNosi
Funciones de gestión avanzada
1. Copia de seguridad y recuperación automatizadasNosi
2. Exploración y búsqueda de archivosNosi
3. Reportes de uso de MapReduce, Impala, HBase, YarnNosi

Cloudera Hadoop: Gerente de Cloudera

Según Cloudera, Cloudera Manager es la mejor manera de Instalar en pc , configurar , gestionar y monitor la pila de Hadoop.

Proporciona:

  1. Implementación y configuración automatizadas
  2. Supervisión y generación de informes personalizables
  3. Solución de problemas robusta y sin esfuerzo
  4. Cero: mantenimiento del tiempo de inactividad

Obtenga un conocimiento profundo sobre Cloudera Hadoop y sus diversas herramientas

Demostración de Cloudera Manager

Exploremos Cloudera Manager.

1. La siguiente figura muestra la cantidad de servicios que se están ejecutando actualmente en Cloudera Manager. También puede ver los gráficos sobre el uso de la CPU del clúster, el uso de E / S de disco, etc.

Fig: Página de inicio de Cloudera Manager

2. La siguiente imagen muestra el clúster HBase. Le brinda tablas y gráficos sobre las condiciones de salud del servidor REST de HBase que se está ejecutando actualmente.

Fig: Condiciones de salud del servidor HBase

3. Ahora, echemos un vistazo a la pestaña Instancias del clúster HBase donde puede verificar el estado y la configuración de IP.

Fig: Estado y dirección IP del servidor host del clúster HBase

4. A continuación, tiene la pestaña Configuración. Aquí puede ver todos los parámetros de configuración y cambiar sus valores.

Fig: Configuración del clúster HBase

Ahora, comprendamos qué son las parcelas en Cloudera.

Cloudera Hadoop: Parcelas

Un paquete es un formato de distribución binario que contiene los archivos del programa, junto con los metadatos adicionales utilizados por Cloudera Manager.

Las parcelas son independientes y se instalan en un directorio con versiones, lo que significa que se pueden instalar varias versiones de un servicio determinado en paralelo.

A continuación se muestran los beneficios de usar Parcel:

  • Proporciona distribución de CDH como un solo objeto, es decir, en lugar de tener un paquete separado para cada parte de CDH, los paquetes solo tienen un solo objeto para instalar.

  • Ofrece consistencia interna (dado que el CDH completo se distribuye como un solo paquete, todos los componentes de CDH coinciden y no habrá riesgo de que diferentes partes provengan de diferentes versiones de CDH).

  • Puede instalar, actualizar, degradar, distribuir y activar las parcelas en CDH con unos pocos clics.

Ahora, veamos cómo instalar y activar el servicio Kafka en CDH usando Parcels.

  1. Vaya a la página de inicio de Cloudera Manager >> Hosts >> Parcelas como se muestra a continuación

    Fig: Selección de parcelas de los hosts

2. Si no ve Kafka en la lista de paquetes, puede agregar el paquete a la lista.

  1. Busque el paquete de la versión de Kafka que desea utilizar. Si no lo ve, puede agregar el depósito de parcelas a la lista.
  2. Busque el paquete de la versión de Kafka que desea instalar: Distribución de Cloudera de las versiones de Apache Kafka .
    La siguiente figura demuestra lo mismo.

Fig: Ruta del depósito de la parcela.

3. Copie el enlace como se muestra en la figura anterior y agréguelo al Repositorio Remoto de Parcelas como se muestra a continuación.

Fig: Adición de la ruta de Kafka desde el repositorio

4.Después de agregar la ruta, Kafka estará listo para descargar. Puede hacer clic en el botón de descarga y descargar Kafka.

Fig: Descarga de Kafka

5. Una vez descargado Kafka, todo lo que necesita hacer es distribuirlo y activarlo.

Fig: Activación de Kafka

Una vez activado, puede continuar y ver Kafka en la pestaña de servicios en el administrador de Cloudera.

Fig: servicio Kafka

Cloudera Hadoop: Creación de un flujo de trabajo de Oozie

Crear un flujo de trabajo escribiendo manualmente el código XML y luego ejecutándolo es complicado. Puedes referir esto Programación del trabajo de Oozie blog, para conocer el enfoque tradicional.

Puede ver la imagen de abajo, donde hemos escrito un archivo XML para crear un flujo de trabajo simple de Oozie. Fig: Creación de un flujo de trabajo de Oozie con un enfoque tradicional

Como puede ver, incluso para crear un programador Oozie simple, tuvimos que escribir un código XML enorme que requiere mucho tiempo, y depurar cada línea se vuelve engorroso. Para superar esto, Cloudera Manager introdujo una nueva función llamada Matiz que proporciona una GUI y funciones simples de arrastrar y soltar para crear y ejecutar flujos de trabajo de Oozie.

Ahora veamos cómo Hue realiza la misma tarea de una manera simplificada.

Antes de crear un flujo de trabajo, primero creemos archivos de entrada, es decir, clickstream.txt y user.txt.
En el archivo user.txt, tenemos Identificación de usuario, Nombre, Edad, País, Sexo como se muestra a continuación. Necesitamos este archivo de usuario para saber los recuentos de usuarios y los clics en la URL (mencionada en el archivo de flujo de clics) según el ID de usuario.

Fig: Crear un archivo de texto

Para saber el número de clics del usuario en cada URL, tenemos un flujo de clics que contiene el ID de usuario y la URL.

Fig: Archivo Clickstream

Escribamos las consultas en el archivo de secuencia de comandos.

Fig: Archivo de script

Después de crear el archivo de usuario, el archivo de flujo de clics y el archivo de secuencia de comandos, podemos seguir adelante y crear el flujo de trabajo de Oozie.

1. Puede simplemente arrastrar y soltar el flujo de trabajo de Oozie como se muestra en la imagen.

Fig: Función de arrastrar y soltar para crear el flujo de trabajo de Oozie

2. Poco después de dejar su acción, debe especificar las rutas al archivo de secuencia de comandos y agregar los parámetros mencionados en el archivo de secuencia de comandos. Aquí debe agregar los parámetros OUTPUT, CLICKSTREAM y USER y especificar la ruta a cada uno de los parámetros.

Fig: Agregar un archivo de script y los parámetros necesarios para ejecutar la acción

diferencia de java entre lanzar y lanzar

3. Una vez que haya especificado las rutas y agregado los parámetros, ahora simplemente guarde y envíe el flujo de trabajo como se muestra en la imagen de abajo.

Fig: Guardar y enviar la acción Oozie

4. Una vez que envíe la tarea, su trabajo estará terminado. Hue se encarga de la ejecución y de los demás pasos.

Fig: Estado de ejecución del trabajo de Oozie

5.Ahora que hemos ejecutado el trabajo de Oozie, echemos un vistazo a la pestaña de acción. Contiene el ID de usuario y el estado del flujo de trabajo. También muestra códigos de error, si los hay, la hora de inicio y finalización del elemento de acción.

Fig: Elementos presentes en la pestaña de acción del flujo de trabajo de Oozie

6. Junto a la pestaña de acción está la pestaña de detalles. En este, podemos ver la hora de inicio y la última hora de modificación del trabajo.

Fig: Detalles del flujo de trabajo de Oozie.

7. Junto a la pestaña Detalles, tenemos la pestaña Configuración del flujo de trabajo.

Fig: Ajustes de configuración del flujo de trabajo de Oozie

7. Mientras se ejecuta el elemento de acción, si hay algún error, aparecerá en la pestaña Registro. Puede consultar las declaraciones de error y depurarlas en consecuencia.

Fig: Archivo de registro que contiene códigos de error y declaraciones de error

8. Aquí está el código XML del flujo de trabajo que Hue genera automáticamente.

Fig: código XML del flujo de trabajo de Oozie

9.1. Como ya ha especificado la ruta para el directorio de salida en el paso 2, aquí tiene el directorio de salida en el navegador HDFS como se muestra a continuación.

Fig: Directorio de salida del navegador HDFS

9.2 Una vez que haga clic en el directorio de salida, encontrará un archivo de texto llamado output.txt y ese archivo de texto contiene la salida real como se muestra en la siguiente figura.

Fig: Texto de salida final

Así es como Hue simplifica nuestro trabajo al proporcionar las opciones de arrastrar y soltar para crear un flujo de trabajo de Oozie.

Espero que este blog haya sido útil para comprender la distribución de Cloudera y los diferentes componentes de Cloudera.

¿Quiere participar en la revolución de Big Data?

Ahora que ha entendido Cloudera Hadoop Distribution, consulte la por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Edureka Big Data Hadoop ayuda a los alumnos a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de comercio minorista, redes sociales, aviación, turismo y finanzas.

Tienes una pregunta para nosotros? Menciónalo en la sección de comentarios y nos comunicaremos contigo.