Hadoop 2.0 - Preguntas frecuentes



El interés en Hadoop se ha multiplicado por muchos en los últimos años. Esta publicación responde a sus consultas y aclara muchas dudas sobre Hadoop 2.0 y su uso.

¡Esta es una publicación de seguimiento con la respuesta a las preguntas más frecuentes durante el seminario web público de edureka! en .

Preguntas frecuentes sobre Hadoop

Deepak:





¿Qué es Hadoop?
Apache Hadoop es un marco de software de código abierto para el almacenamiento y procesamiento a gran escala de conjuntos de datos en grupos de hardware básico. Es un marco de software de gestión de datos de código abierto con almacenamiento escalable y procesamiento distribuido. Está siendo construido y utilizado por una comunidad global de contribuyentes y usuarios.

java encuentra el número más grande en la matriz

Lea más en nuestra publicación de blog de Hadoop y .



Buscar:

¿Cuáles son los casos de uso de big data en la industria de viajes, transporte y aerolíneas?

Soleado:



¿Puede señalarnos alguna muestra de la vida real de la implementación de Hadoop que podamos estudiar?
Somos livideen una era de creciente congestión en las horas pico. Los operadores de transporte buscan constantemente encontrar formas rentables de prestar sus servicios mientras mantienen su flota de transporte en buenas condiciones. El uso de Big Data Analytics en este dominio puede ayudar a la organización con:

  • Optimización de ruta
  • Analítica geoespacial
  • Patrones de tráfico y congestión
  • Mantenimiento de activos
  • Gestión de ingresos (es decir, aerolínea)
  • La gestión del inventario
  • Conservación de combustible
  • Marketing dirigido
  • La lealtad del cliente
  • Previsión de capacidad
  • Optimización y rendimiento de la red

Pocos casos de uso del mundo real son:
a) Determinación de los costos de vuelo
b) Modelado de predicciones para logística de inventario
c) Orbitz Worldwide - Patrones de compra de clientes
re) Seis implementaciones de Hadoop a gran escala
es) Hadoop: más que agrega
F) Hadoop en la empresa

Puede obtener más información sobre las implementaciones del mundo real de Hadoop en:

Hirdesh:

¿Hadoop tiene que ver con el manejo y procesamiento de datos? ¿Cómo vamos con los informes y el análisis visual? ¿Se pueden usar Qlikview, Tableau sobre Hadoop?
Los componentes principales de Hadoop, HDFS y MapReduce, tienen que ver con el almacenamiento y procesamiento de datos. HDFS para almacenamiento y MapReduce para procesamiento. Pero los componentes centrales de Hadoop, como Pig y Hive, se utilizan para análisis. Para Visual Reports Tableau, QlikView se puede conectar a Hadoop para Visual Reporting.

Amit:

Hadoop vs. mongoDB
MongoDB se utiliza como el almacén de datos en tiempo real 'operativo', mientras que Hadoop se utiliza para el procesamiento y análisis de datos por lotes sin conexión.
mongoDB es un almacén de datos sin esquema orientado a documentos que puede usar en una aplicación web como backend en lugar de RDBMS como MySQL, mientras que Hadoop se usa principalmente como almacenamiento escalable y procesamiento distribuido para grandes cantidades de datos.

Leer más en nuestro Publicación de blog de mongoDB y Hadoop .

Aquí:

¿Apache Spark es parte de Hadoop? ?
Apache Spark es un motor rápido y general para el procesamiento de datos a gran escala. Spark es más rápido y admite el procesamiento en memoria. El motor de ejecución Spark amplía el tipo de cargas de trabajo informáticas que Hadoop puede manejar y puede ejecutar en el clúster Hadoop 2.0 YARN. Es un sistema de marco de procesamiento que permite almacenar objetos en memoria (RDD) junto con la capacidad de procesar estos objetos mediante cierres de Scala. Es compatible con el procesamiento de gráficos, almacenamiento de datos, aprendizaje automático y transmisión.

Si tiene un clúster de Hadoop 2, puede ejecutar Spark sin necesidad de instalación. De lo contrario, Spark es fácil de ejecutar de forma independiente o en EC2 o Mesos. Puede leer desde HDFS, HBase, Cassandra y cualquier fuente de datos de Hadoop.

Leer más sobre Spark Aquí .

Prasad:

¿Qué es Apache Flume?
Apache Flume es un sistema distribuido, confiable y disponible para recopilar, agregar y mover de manera eficiente grandes cantidades de datos de registro de muchas fuentes diferentes a una fuente de datos centralizada.

Amit:

Bases de datos SQL vs NO-SQL
Las bases de datos NoSQL son bases de datos de próxima generación y, en su mayoría, abordan algunos de los puntos

  • no relacional
  • repartido
  • fuente abierta
  • escalable horizontalmente

A menudo se aplican más características, como sin esquema, soporte de replicación fácil, API simple, eventualmente consistente / BASE (no ACID), una gran cantidad de datos y más. Por ejemplo, algunos de los diferenciadores son:

  • Las bases de datos NoSQL se escalan horizontalmente, agregando más servidores para lidiar con cargas más grandes. Las bases de datos SQL, por otro lado, generalmente escalan verticalmente, agregando más y más recursos a un solo servidor a medida que aumenta el tráfico.
  • Las bases de datos SQL requieren que defina sus esquemas antes de agregar cualquier información y datos, pero las bases de datos NoSQL no tienen esquemas y no requieren una definición de esquema por adelantado.
  • Las bases de datos SQL se basan en tablas con filas y columnas que siguen los principios RDBMS, mientras que las bases de datos NoSQL son documentos, pares clave-valor, gráficos o almacenes de columnas anchas.
  • Las bases de datos SQL utilizan SQL (lenguaje de consulta estructurado) para definir y manipular los datos. En la base de datos NoSQL, las consultas varían de una base de datos a otra.

Bases de datos SQL populares: MySQL, Oracle, Postgres y MS-SQL
Popular Bases de datos NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j y CouchDB

Revise nuestros blogs en Hadoop y NoSQL bases de datos y ventajas de una de estas bases de datos:

Koteswararao:

¿Hadoop tiene una tecnología de clúster incorporada?
Un clúster de Hadoop utiliza la arquitectura maestro-esclavo. Consiste en un único maestro (NameNode) y un grupo de esclavos (DataNodes) para almacenar y procesar datos. Hadoop está diseñado para ejecutarse en una gran cantidad de máquinas que no comparten memoria ni discos. Estos DataNodes se configuran como Cluster usando . Hadoop utiliza un concepto de replicación para garantizar que al menos una copia de los datos esté disponible en el clúster todo el tiempo. Debido a que hay varias copias de datos, los datos almacenados en un servidor que se desconecta o muere se pueden replicar automáticamente a partir de una buena copia conocida.

Dinesh:

¿Qué es un trabajo en Hadoop? ¿Qué se puede lograr con un trabajo?
En Hadoop, un trabajo es un programa MapReduce para procesar / analizar los datos. El término MapReduce en realidad se refiere a dos tareas separadas y distintas que realizan los programas Hadoop. La primera es la tarea Mapa, que toma un conjunto de datos y los convierte en otro conjunto de datos intermedios, donde los elementos individuales se dividen en pares clave-valor. La segunda parte de un trabajo MapReduce, la tarea Reducir, toma la salida de un mapa como entrada y combina los pares clave-valor en un conjunto más pequeño de pares clave-valor agregados. Como implica la secuencia del nombre MapReduce, la tarea Reducir siempre se realiza después de completar las tareas del Mapa. Leer más sobre el trabajo MapReduce .

Sukruth:

¿Qué tiene de especial NameNode? ?
NameNode es el corazón de un sistema de archivos HDFS. Mantiene los metadatos, como el árbol de directorios de todos los archivos en el sistema de archivos, y rastrea dónde se guardan los datos del archivo en todo el clúster. Los datos reales se almacenan en DataNodes como bloques HDFS.
Las aplicaciones cliente se comunican con el NameNode siempre que desean ubicar un archivo o cuando desean agregar / copiar / mover / eliminar un archivo. NameNode responde las solicitudes exitosas devolviendo una lista de servidores DataNodes relevantes donde residen los datos. Leer más sobre la arquitectura HDFS .

Dinesh:

¿Cuándo se introdujo Hadoop 2.0 en el mercado?
Apache Software foundation (ASF), el grupo de código abierto que gestiona el desarrollo de Hadoop ha anunciado en su blog el 15 de octubre de 2013 que Hadoop 2.0 ya está disponible de forma general (GA). Este anuncio significa que después de una larga espera, Apache Hadoop 2.0 y YARN ya están listos para la implementación de producción. Más en blog.

Dinesh:

¿Cuáles son los pocos ejemplos de aplicaciones de Big Data que no son de MapReduce?
MapReduce es excelente para muchas aplicaciones para resolver problemas de Big Data, pero no para todo, otros modelos de programación satisfacen mejor los requisitos como el procesamiento de gráficos (por ejemplo, Google Pregel / Apache Giraph) y el modelado iterativo con la interfaz de paso de mensajes (MPI).

Marish:

¿Cómo se organizan e indexan los datos en HDFS?
Los datos se dividen en bloques de 64 MB (configurables mediante un parámetro) y se almacenan en HDFS. NameNode almacena la información de almacenamiento de estos bloques como ID de bloque en su RAM (metadatos de NameNode). Los trabajos de MapReduce pueden acceder a estos bloques utilizando los metadatos almacenados en la RAM de NameNode.

Shashwat:

mis tutoriales de sql para principiantes

¿Podemos usar MapReduce (MRv1) y MRv2 (con YARN) en el mismo clúster?
Hadoop 2.0 ha introducido un nuevo marco YARN para escribir y ejecutar diferentes aplicaciones en Hadoop. Entonces, YARN y MapReduce son dos conceptos diferentes en Hadoop 2.0 y no deben mezclarse ni usarse indistintamente. La pregunta correcta es '¿Es posible ejecutar MRv1 y MRv2 en un clúster Hadoop 2.0 habilitado para YARN?' La respuesta a esta pregunta es una “No” a pesar de que un clúster de Hadoop se puede configurar para ejecutar MRv1 y MRv2, pero solo puede ejecutar un conjunto de demonios en cualquier momento. Ambos marcos eventualmente usan los mismos archivos de configuración ( yarn-site.xml y mapred-site.xml ) para ejecutar los demonios, por lo tanto, solo una de las dos configuraciones se puede habilitar en un clúster de Hadoop.

Muñeca:

¿Cuál es la diferencia entre MapReduce de próxima generación (MRv2) y YARN?
YARN y Next Generation MapReduce (MRv2) son dos conceptos y tecnologías diferentes en Hadoop 2.0. YARN es un marco de software que se puede utilizar para ejecutar no solo MRv2 sino también otras aplicaciones. MRv2 es un marco de aplicación escrito con YARN API y se ejecuta dentro de YARN.

Bharat:

¿Hadoop 2.0 proporciona compatibilidad con versiones anteriores para las aplicaciones Hadoop 1.x?
Neha:

¿La migración de Hadoop 1.0 a 2.0 requiere un código de aplicación pesado? ¿migración?
No, la mayoría de las aplicaciones desarrolladas con las API 'org.apache.hadoop.mapred' pueden ejecutarse en YARN sin necesidad de volver a compilarlas. YARN es binario compatible con las aplicaciones MRv1 y se puede utilizar “bin / hadoop” para enviar estas aplicaciones en YARN. Leer más sobre esto Aquí .

Sherin:

¿Qué sucede si el nodo Resource Manager falla en Hadoop 2.0?
A partir de la versión 2.4.0 de Hadoop, también está disponible el soporte de alta disponibilidad para Resource Manager. ResourceManager utiliza Apache ZooKeeper para la conmutación por error. Cuando falla el nodo de Resource Manager, un nodo secundario puede recuperarse rápidamente a través del estado del clúster guardado en ZooKeeper. ResourceManager, en una conmutación por error, reinicia todas las aplicaciones en cola y en ejecución.

Sabbirali:

¿El marco Hadoop de Apache funciona en Cloudera Hadoop?
Apache Hadoop se introdujo en 2005 con el motor de procesamiento central MapReduce para admitir el procesamiento distribuido de cargas de trabajo de datos a gran escala almacenadas en HDFS. Es un proyecto de código abierto y tiene múltiples distribuciones (similar a Linux). Cloudera Hadoop (CDH) es una de esas distribuciones de Cloudera. Otras distribuciones similares son HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights, etc.

Arulvadivel:

¿Alguna forma fácil de instalar Hadoop en mi computadora portátil e intentar la migración de la base de datos Oracle a Hadoop?
Usted puede comienzo con un HortonWorks Sandbox o Cloudera Quick VM en su computadora portátil (con al menos 4 GB de RAM y procesador i3 o superior). Utilice SQOOP para mover datos de Oracle a Hadoop como se explica Aquí .

Bhabani:

¿Cuáles son los mejores libros disponibles para aprender Hadoop?
Empezar con Hadoop: la guía definitiva por Tom White y Operaciones de Hadoop por Eric Sammer.

Mahendra:

¿Hay alguna lectura disponible para Hadoop 2.0 al igual que Hadoop, la guía definitiva?
Revisa el última llegada en estanterías escritas por algunos de los creadores de Hadoop 2.0.

Estén atentos para más preguntas en esta serie.