Instalar Hadoop: configurar un clúster de Hadoop de un solo nodo



Este tutorial es una guía paso a paso para instalar el clúster de Hadoop y configurarlo en un solo nodo. Todos los pasos de instalación de Hadoop son para la máquina CentOS.

Instalar Hadoop: configurar un clúster de Hadoop de un solo nodo

De nuestros blogs anteriores en , debe tener una idea teórica sobre Hadoop, HDFS y su arquitectura.Pero para conseguir necesita buenos conocimientos prácticos.Espero que les haya gustado nuestro blog anterior en , ahora lo llevaré a través del conocimiento práctico sobre Hadoop y HDFS. El primer paso adelante es instalar Hadoop.

Hay dos formas de instalar Hadoop, es decir Nodo único y Multi nodo .





Clúster de un solo nodo significa que solo un DataNode se ejecuta y configura todos los NameNode, DataNode, ResourceManager y NodeManager en una sola máquina. Se utiliza para estudiar y realizar pruebas. Por ejemplo, consideremos un conjunto de datos de muestra dentro de una industria de la salud. Por lo tanto, para probar si los trabajos de Oozie han programado todos los procesos como recopilar, agregar, almacenar y procesar los datos en una secuencia adecuada, usamos un clúster de un solo nodo. Puede probar fácil y eficientemente el flujo de trabajo secuencial en un entorno más pequeño en comparación con entornos grandes que contienen terabytes de datos distribuidos en cientos de máquinas.

Mientras en un Clúster de múltiples nodos , hay más de un DataNode ejecutándose y cada DataNode se está ejecutando en diferentes máquinas. El clúster de múltiples nodos se utiliza prácticamente en organizaciones para analizar Big Data. Teniendo en cuenta el ejemplo anterior, en tiempo real cuando tratamos con petabytes de datos, es necesario distribuirlos entre cientos de máquinas para su procesamiento. Por lo tanto, aquí usamos un clúster de múltiples nodos.



En este blog, le mostraré cómo instalar Hadoop en un clúster de un solo nodo.

Prerrequisitos

  • CAJA VIRTUAL : se utiliza para instalar el sistema operativo en él.
  • SISTEMA OPERATIVO : Puede instalar Hadoop en sistemas operativos basados ​​en Linux. Ubuntu y CentOS se utilizan con mucha frecuencia. En este tutorial, usamos CentOS.
  • JAVA : Necesita instalar el paquete Java 8 en su sistema.
  • HADOOP : Necesita el paquete Hadoop 2.7.3.

Instalar Hadoop

Paso 1: haga clic aquí para descargar el paquete Java 8. Guarde este archivo en su directorio personal.

Paso 2: Extraiga el archivo Tar de Java.

Mando : tar -xvf jdk-8u101-linux-i586.tar.gz

Untar Java - Install Hadoop - Edureka



Fig: Instalación de Hadoop: extracción de archivos Java

Paso 3: Descargue el paquete Hadoop 2.7.3.

Mando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Instalación de Hadoop - Descarga de Hadoop

cómo convertir cadenas a la fecha

Etapa 4: Extraiga el archivo tar de Hadoop.

Mando : tar -xvf hadoop-2.7.3.tar.gz

Fig: Instalación de Hadoop: extracción de archivos de Hadoop

Paso 5: Agregue las rutas de Hadoop y Java en el archivo bash (.bashrc).

Abierto . bashrc archivo. Ahora, agregue Hadoop y Java Path como se muestra a continuación.

Mando : vi .bashrc

Fig: Instalación de Hadoop: configuración de la variable de entorno

Luego, guarde el archivo bash y ciérrelo.

Para aplicar todos estos cambios a la Terminal actual, ejecute el comando de origen.

Mando : fuente .bashrc

Fig: Instalación de Hadoop: actualización de variables de entorno

Para asegurarse de que Java y Hadoop se hayan instalado correctamente en su sistema y se pueda acceder a ellos a través de la Terminal, eEjecute los comandos java -version y hadoop version.

Mando : Java-versión

Fig: Instalación de Hadoop - Comprobación de la versión de Java

Mando : hadoopversión

Fig: Instalación de Hadoop - Comprobación de la versión de Hadoop

Paso 6 : Edite el .

Mando: cd hadoop-2.7.3 / etc / hadoop /

Mando: ls

Todos los archivos de configuración de Hadoop se encuentran en hadoop-2.7.3 / etc / hadoop directorio como puede ver en la instantánea a continuación:

Fig: Instalación de Hadoop - Archivos de configuración de Hadoop

Paso 7 : Abierto core-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:

core-site.xml informa al demonio de Hadoop dónde se ejecuta NameNode en el clúster. Contiene ajustes de configuración del núcleo de Hadoop, como ajustes de E / S que son comunes a HDFS y MapReduce.

Mando : vi core-site.xml

Fig: Instalación de Hadoop: configuración de core-site.xml

fs.default.name hdfs: // localhost: 9000

Paso 8: Editar hdfs-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:

hdfs-site.xml contiene opciones de configuración de demonios HDFS (es decir, NameNode, DataNode, Secondary NameNode). También incluye el factor de replicación y el tamaño de bloque de HDFS.

Mando : vi hdfs-site.xml

Fig: Instalación de Hadoop: configuración de hdfs-site.xml

dfs.replication 1 dfs.permission falso

Paso 9 : Edite el mapred-site.xml archivo y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:

mapred-site.xml contiene los ajustes de configuración de la aplicación MapReduce como el número de JVM que pueden ejecutarse en paralelo, el tamaño del mapeador y el proceso reductor, núcleos de CPU disponibles para un proceso, etc.

En algunos casos, el archivo mapred-site.xml no está disponible. Entonces, tenemos que crear el archivo mapred-site.xmlutilizando la plantilla mapred-site.xml.

Mando : cp mapred-site.xml.template mapred-site.xml

Mando : nosotros mapeadositio.xml.

Fig: Instalación de Hadoop: configuración de mapred-site.xml

hilo mapreduce.framework.name

Paso 10: Editar yarn-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:

yarn-site.xml contiene los ajustes de configuración de ResourceManager y NodeManager, como el tamaño de la gestión de memoria de la aplicación, la operación necesaria en el programa y el algoritmo, etc.

Mando : vi yarn-site.xml

Fig: Instalación de Hadoop: configuración de yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Paso 11: Editar hadoop-env.sh y agregue la ruta de Java como se menciona a continuación:

hadoop-env.sh contiene las variables de entorno que se utilizan en el script para ejecutar Hadoop como la ruta de inicio de Java, etc.

Mando : nosotros hadoopenv.sh

Fig: Instalación de Hadoop: configuración de hadoop-env.sh

Paso 12: Vaya al directorio de inicio de Hadoop y formatee el NameNode.

Mando : cd

Mando : cd hadoop-2.7.3

Mando : bin / hadoop propósito -formato

Fig: Instalación de Hadoop - Formateo de NameNode

Esto formatea el HDFS a través de NameNode. Este comando solo se ejecuta por primera vez. Formatear el sistema de archivos significa inicializar el directorio especificado por la variable dfs.name.dir.

Nunca formatee, instale y ejecute el sistema de archivos Hadoop. Perderá todos sus datos almacenados en el HDFS.

Paso 13: Una vez formateado el NameNode, vaya al directorio hadoop-2.7.3 / sbin e inicie todos los demonios.

Mando: cd hadoop-2.7.3 / sbin

Puede iniciar todos los demonios con un solo comando o hacerlo individualmente.

Mando: ./ start-all.sh

El comando anterior es una combinación de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

O puede ejecutar todos los servicios individualmente como se muestra a continuación:

Iniciar NameNode:

NameNode es la pieza central de un sistema de archivos HDFS. Mantiene el árbol de directorios de todos los archivos almacenados en el HDFS y rastrea todos los archivos almacenados en el clúster.

tiene una relación en java

Mando: ./propósito de inicio de hadoop-daemon.sh

Fig: Instalación de Hadoop - NameNode inicial

Iniciar DataNode:

Al iniciarse, un DataNode se conecta al Namenode y responde a las solicitudes del Namenode para diferentes operaciones.

Mando: ./hadoop-daemon.sh iniciar datanode

Fig: Instalación de Hadoop - Iniciando DataNode

Inicie ResourceManager:

ResourceManager es el maestro que arbitra todos los recursos de clúster disponibles y, por lo tanto, ayuda a administrar las aplicaciones distribuidas que se ejecutan en el sistema YARN. Su trabajo es administrar cada NodeManagers y el ApplicationMaster de cada aplicación.

Mando: ./hilo-daemon.sh iniciar el administrador de recursos

Fig: Instalación de Hadoop: inicio de ResourceManager

Inicie NodeManager:

El NodeManager en cada marco de máquina es el agente responsable de administrar los contenedores, monitorear su uso de recursos y reportar lo mismo al ResourceManager.

Mando: ./hilo-daemon.sh iniciar nodemanager

Fig: Instalación de Hadoop - Iniciando NodeManager

Inicie JobHistoryServer:

JobHistoryServer es responsable de atender todas las solicitudes del cliente relacionadas con el historial de trabajos.

Mando : ./mr-jobhistory-daemon.sh iniciar historyserver

Paso 14: Para comprobar que todos los servicios de Hadoop están en funcionamiento, ejecute el siguiente comando.

Mando: jps

Fig: Instalación de Hadoop - Comprobación de demonios

Paso 15: Ahora abra el navegador Mozilla y vaya a localhost : 50070 / dfshealth.html para comprobar la interfaz de NameNode.

Fig: Instalación de Hadoop - Iniciando WebUI

Felicitaciones, ha instalado correctamente un clúster de Hadoop de un solo nodo de una sola vez.En nuestro próximo blog de , también cubriremos cómo instalar Hadoop en un clúster de múltiples nodos.

Ahora que ha entendido cómo instalar Hadoop, consulte el por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Edureka Big Data Hadoop ayuda a los alumnos a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de Retail, Social Media, Aviación, Turismo, Finanzas.

Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos pondremos en contacto con usted.