Instalar Hadoop: configurar un clúster de Hadoop de un solo nodo
De nuestros blogs anteriores en , debe tener una idea teórica sobre Hadoop, HDFS y su arquitectura.Pero para conseguir necesita buenos conocimientos prácticos.Espero que les haya gustado nuestro blog anterior en , ahora lo llevaré a través del conocimiento práctico sobre Hadoop y HDFS. El primer paso adelante es instalar Hadoop.
Hay dos formas de instalar Hadoop, es decir Nodo único y Multi nodo .
Clúster de un solo nodo significa que solo un DataNode se ejecuta y configura todos los NameNode, DataNode, ResourceManager y NodeManager en una sola máquina. Se utiliza para estudiar y realizar pruebas. Por ejemplo, consideremos un conjunto de datos de muestra dentro de una industria de la salud. Por lo tanto, para probar si los trabajos de Oozie han programado todos los procesos como recopilar, agregar, almacenar y procesar los datos en una secuencia adecuada, usamos un clúster de un solo nodo. Puede probar fácil y eficientemente el flujo de trabajo secuencial en un entorno más pequeño en comparación con entornos grandes que contienen terabytes de datos distribuidos en cientos de máquinas.
Mientras en un Clúster de múltiples nodos , hay más de un DataNode ejecutándose y cada DataNode se está ejecutando en diferentes máquinas. El clúster de múltiples nodos se utiliza prácticamente en organizaciones para analizar Big Data. Teniendo en cuenta el ejemplo anterior, en tiempo real cuando tratamos con petabytes de datos, es necesario distribuirlos entre cientos de máquinas para su procesamiento. Por lo tanto, aquí usamos un clúster de múltiples nodos.
En este blog, le mostraré cómo instalar Hadoop en un clúster de un solo nodo.
Prerrequisitos
- CAJA VIRTUAL : se utiliza para instalar el sistema operativo en él.
- SISTEMA OPERATIVO : Puede instalar Hadoop en sistemas operativos basados en Linux. Ubuntu y CentOS se utilizan con mucha frecuencia. En este tutorial, usamos CentOS.
- JAVA : Necesita instalar el paquete Java 8 en su sistema.
- HADOOP : Necesita el paquete Hadoop 2.7.3.
Instalar Hadoop
Paso 1: haga clic aquí para descargar el paquete Java 8. Guarde este archivo en su directorio personal.
Paso 2: Extraiga el archivo Tar de Java.
Mando : tar -xvf jdk-8u101-linux-i586.tar.gz
Fig: Instalación de Hadoop: extracción de archivos Java
Paso 3: Descargue el paquete Hadoop 2.7.3.
Mando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Fig: Instalación de Hadoop - Descarga de Hadoop
cómo convertir cadenas a la fecha
Etapa 4: Extraiga el archivo tar de Hadoop.
Mando : tar -xvf hadoop-2.7.3.tar.gz
Fig: Instalación de Hadoop: extracción de archivos de Hadoop
Paso 5: Agregue las rutas de Hadoop y Java en el archivo bash (.bashrc).
Abierto . bashrc archivo. Ahora, agregue Hadoop y Java Path como se muestra a continuación.
Mando : vi .bashrc
Fig: Instalación de Hadoop: configuración de la variable de entorno
Luego, guarde el archivo bash y ciérrelo.
Para aplicar todos estos cambios a la Terminal actual, ejecute el comando de origen.
Mando : fuente .bashrc
Fig: Instalación de Hadoop: actualización de variables de entorno
Para asegurarse de que Java y Hadoop se hayan instalado correctamente en su sistema y se pueda acceder a ellos a través de la Terminal, eEjecute los comandos java -version y hadoop version.
Mando : Java-versión
Fig: Instalación de Hadoop - Comprobación de la versión de Java
Mando : hadoopversión
Fig: Instalación de Hadoop - Comprobación de la versión de Hadoop
Paso 6 : Edite el .
Mando: cd hadoop-2.7.3 / etc / hadoop /
Mando: ls
Todos los archivos de configuración de Hadoop se encuentran en hadoop-2.7.3 / etc / hadoop directorio como puede ver en la instantánea a continuación:
Fig: Instalación de Hadoop - Archivos de configuración de Hadoop
Paso 7 : Abierto core-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:
core-site.xml informa al demonio de Hadoop dónde se ejecuta NameNode en el clúster. Contiene ajustes de configuración del núcleo de Hadoop, como ajustes de E / S que son comunes a HDFS y MapReduce.
Mando : vi core-site.xml
Fig: Instalación de Hadoop: configuración de core-site.xml
fs.default.name hdfs: // localhost: 9000
Paso 8: Editar hdfs-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:
hdfs-site.xml contiene opciones de configuración de demonios HDFS (es decir, NameNode, DataNode, Secondary NameNode). También incluye el factor de replicación y el tamaño de bloque de HDFS.
Mando : vi hdfs-site.xml
Fig: Instalación de Hadoop: configuración de hdfs-site.xml
dfs.replication 1 dfs.permission falso
Paso 9 : Edite el mapred-site.xml archivo y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:
mapred-site.xml contiene los ajustes de configuración de la aplicación MapReduce como el número de JVM que pueden ejecutarse en paralelo, el tamaño del mapeador y el proceso reductor, núcleos de CPU disponibles para un proceso, etc.
En algunos casos, el archivo mapred-site.xml no está disponible. Entonces, tenemos que crear el archivo mapred-site.xmlutilizando la plantilla mapred-site.xml.
Mando : cp mapred-site.xml.template mapred-site.xml
Mando : nosotros mapeadositio.xml.
Fig: Instalación de Hadoop: configuración de mapred-site.xml
hilo mapreduce.framework.name
Paso 10: Editar yarn-site.xml y edite la propiedad mencionada a continuación dentro de la etiqueta de configuración:
yarn-site.xml contiene los ajustes de configuración de ResourceManager y NodeManager, como el tamaño de la gestión de memoria de la aplicación, la operación necesaria en el programa y el algoritmo, etc.
Mando : vi yarn-site.xml
Fig: Instalación de Hadoop: configuración de yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Paso 11: Editar hadoop-env.sh y agregue la ruta de Java como se menciona a continuación:
hadoop-env.sh contiene las variables de entorno que se utilizan en el script para ejecutar Hadoop como la ruta de inicio de Java, etc.
Mando : nosotros hadoop–env.sh
Fig: Instalación de Hadoop: configuración de hadoop-env.sh
Paso 12: Vaya al directorio de inicio de Hadoop y formatee el NameNode.
Mando : cd
Mando : cd hadoop-2.7.3
Mando : bin / hadoop propósito -formato
Fig: Instalación de Hadoop - Formateo de NameNode
Esto formatea el HDFS a través de NameNode. Este comando solo se ejecuta por primera vez. Formatear el sistema de archivos significa inicializar el directorio especificado por la variable dfs.name.dir.
Nunca formatee, instale y ejecute el sistema de archivos Hadoop. Perderá todos sus datos almacenados en el HDFS.
Paso 13: Una vez formateado el NameNode, vaya al directorio hadoop-2.7.3 / sbin e inicie todos los demonios.
Mando: cd hadoop-2.7.3 / sbin
Puede iniciar todos los demonios con un solo comando o hacerlo individualmente.
Mando: ./ start-all.sh
El comando anterior es una combinación de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
O puede ejecutar todos los servicios individualmente como se muestra a continuación:
Iniciar NameNode:
NameNode es la pieza central de un sistema de archivos HDFS. Mantiene el árbol de directorios de todos los archivos almacenados en el HDFS y rastrea todos los archivos almacenados en el clúster.
tiene una relación en java
Mando: ./propósito de inicio de hadoop-daemon.sh
Fig: Instalación de Hadoop - NameNode inicial
Iniciar DataNode:
Al iniciarse, un DataNode se conecta al Namenode y responde a las solicitudes del Namenode para diferentes operaciones.
Mando: ./hadoop-daemon.sh iniciar datanode
Fig: Instalación de Hadoop - Iniciando DataNode
Inicie ResourceManager:
ResourceManager es el maestro que arbitra todos los recursos de clúster disponibles y, por lo tanto, ayuda a administrar las aplicaciones distribuidas que se ejecutan en el sistema YARN. Su trabajo es administrar cada NodeManagers y el ApplicationMaster de cada aplicación.
Mando: ./hilo-daemon.sh iniciar el administrador de recursos
Fig: Instalación de Hadoop: inicio de ResourceManager
Inicie NodeManager:
El NodeManager en cada marco de máquina es el agente responsable de administrar los contenedores, monitorear su uso de recursos y reportar lo mismo al ResourceManager.
Mando: ./hilo-daemon.sh iniciar nodemanager
Fig: Instalación de Hadoop - Iniciando NodeManager
Inicie JobHistoryServer:
JobHistoryServer es responsable de atender todas las solicitudes del cliente relacionadas con el historial de trabajos.
Mando : ./mr-jobhistory-daemon.sh iniciar historyserver
Paso 14: Para comprobar que todos los servicios de Hadoop están en funcionamiento, ejecute el siguiente comando.
Mando: jps
Fig: Instalación de Hadoop - Comprobación de demonios
Paso 15: Ahora abra el navegador Mozilla y vaya a localhost : 50070 / dfshealth.html para comprobar la interfaz de NameNode.
Fig: Instalación de Hadoop - Iniciando WebUI
Felicitaciones, ha instalado correctamente un clúster de Hadoop de un solo nodo de una sola vez.En nuestro próximo blog de , también cubriremos cómo instalar Hadoop en un clúster de múltiples nodos.
Ahora que ha entendido cómo instalar Hadoop, consulte el por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Edureka Big Data Hadoop ayuda a los alumnos a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de Retail, Social Media, Aviación, Turismo, Finanzas.
Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos pondremos en contacto con usted.