INTRODUCCIÓN A HADOOP JOB TRACKER

usar python en visual studio

Tacker de trabajo de Hadoop

Job Tracker es el demonio maestro tanto para la gestión de recursos de trabajos como para la programación / supervisión de trabajos. Actúa como enlace entre Hadoop y su aplicación.

El proceso

El usuario primero copia los archivos en el Sistema de archivos distribuido (DFS), antes de enviar un trabajo al cliente. Luego, el cliente recibe estos archivos de entrada. El usuario recibirá las divisiones o bloques basados en los archivos de entrada.El cliente podríacrear las divisiones o bloques en un hombrener it prefers, ya que hay ciertas consideraciones detrás de él. Si se realiza un análisis de los datos completos, dividirá los datos en divisiones. Los archivos no se copian a través del cliente, sino que se copian mediante flume o Sqoop o cualquier cliente externo.

Una vez que los archivos se copian en el DFS y el cliente interactúa con el DFS,las divisiones ejecutarán un MapReduce jtransmisión exterior. El trabajo se envía a través de un rastreador de trabajos. El rastreador de trabajos es el demonio maestro que se ejecuta en el mismo nodo quecarrerasestos trabajos múltiples en los nodos de datos. Estos datos estarán en varios nodos de datos, pero es responsabilidad del rastreador de trabajos hacerse cargo de eso.

Después de que un cliente envíael rastreador de trabajos, el trabajo se inicializa en la cola de trabajos y el rastreador de trabajos crea mapas y reduce. Basado en el programa que está contenido en la función de mapa y la función de reducción, creará la tarea de mapa y reducirá la tarea. Estos dos se ejecutarán en las divisiones de entrada. Nota: Cuando la crean los clientes, esta división de entrada contiene todos los datos.

cómo manejar la ventana emergente en selenium

Cada división de entrada tiene un trabajo de mapa ejecutándose y la salida de la tarea de mapa pasa a la tarea de reducción. El rastreador de trabajos ejecuta la pista sobre un dato particular. Puede haber múltiples réplicas de eso, por lo que selecciona los datos locales y ejecuta la tarea en ese rastreador de tareas en particular. El rastreador de tareas es el que realmente ejecuta la tarea en el nodo de datos. El rastreador de trabajos pasará elinformaciónal rastreador de tareas y el rastreador de tareas ejecutará el trabajo en el nodo de datos.

Una vez que el trabajo se ha asignado al rastreador de tareas, hay un latido asociado con cada rastreador de tareas y rastreador de trabajos. Envía señales para averiguar si los nodos de datos aún están activos. Los dos a menudo están sincronizados, ya que existe la posibilidad de que los nodos se desvanezcan.

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos pondremos en contacto contigo.

Artículos Relacionados:

cómo instalar chef server

Introducción a Hadoop Job Tracker

Esto da una idea del uso de Job tracker

Tacker de trabajo de Hadoop

El proceso

Categorías

Popular Articles

¿Qué es el material angular y cómo implementarlo?

Integración Jenkins Git: útil para todos los profesionales de DevOps

Conozca los 10 principales desafíos de la implementación de RPA

Quién es un Scrum Master: todo lo que necesita saber

Todo lo que necesita saber sobre el espacio de nombres en C ++

Alojamiento de un sitio web estático con AWS S3

Todo lo que necesita saber sobre las anotaciones TestNG en Selenium

¿Cómo redactar tu primer contrato inteligente?

¿Qué son los operadores SQL y cómo funcionan?

¿Qué es la interfaz ResultSet en Java?

¿Cómo implementar la clase abstracta en php?

Apache Flink: el marco de análisis de Big Data de próxima generación para el procesamiento de datos por lotes y por secuencias