Herramientas esenciales de Hadoop para procesar macrodatos



Hadoop es la palabra de moda en el mundo de las TI hoy en día, y esta publicación describe las herramientas esenciales de Hadoop que procesan Big Data.

Hoy en día, el término más popular en el mundo de las tecnologías de la información es 'Hadoop'. En un corto lapso de tiempo, Hadoop ha crecido enormemente y ha demostrado ser útil para una gran colección de proyectos diversos. La comunidad de Hadoop está evolucionando rápidamente y tiene un papel destacado en su ecosistema.





Aquí hay un vistazo a las herramientas esenciales de Hadoop que se utilizan para manejar Big Data.

que es .format en python

ambari



Ambari es un proyecto de Apache respaldado por Hortonworks. Ofrece una GUI (interfaz gráfica de usuario) basada en web con scripts de asistente para configurar clústeres con la mayoría de los componentes estándar. Ambari aprovisiona, gestiona y supervisa todos los grupos de trabajos de Hadoop.

hdfs-logo

los HDFS , distribuida bajo licencia Apache ofrece un marco básico para dividir colecciones de datos entre múltiples nodos. En HDFS, los archivos grandes se dividen en bloques, donde varios nodos contienen todos los bloques de un archivo. El sistema de archivos está diseñado para combinar la tolerancia a fallas con un alto rendimiento. Los bloques de HDFS se cargan para mantener una transmisión constante. Por lo general, no se almacenan en caché para minimizar la latencia.



hbaselogo

HBase es un sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre HDFS. Las aplicaciones HBase están escritas en Java, de forma muy similar a la aplicación MapReduce. Comprende un conjunto de tablas, donde cada tabla contiene filas y columnas como una base de datos tradicional. Cuando los datos caen en la tabla grande, HBase almacenará los datos, los buscará y compartirá automáticamente la tabla en varios nodos para que los trabajos de MapReduce puedan ejecutarlos localmente. HBase ofrece una garantía limitada para algunos cambios locales. Los cambios que ocurren en una sola fila pueden tener éxito o fallar al mismo tiempo.

hive

Si ya domina SQL, puede aprovechar Hadoop usando Colmena . Hive fue desarrollado por algunas personas en Facebook. Apache Hive regula el proceso de extracción de bits de todos los archivos en HBase. Admite el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop y sistemas de archivos compatibles. También proporciona un lenguaje similar a SQL llamado HSQL (HiveSQL) que ingresa a los archivos y extrae los fragmentos requeridos para el código.

sqoop

Apache Sqoop está especialmente diseñado para transferir datos masivos de manera eficiente desde las bases de datos tradicionales a Hive o HBase. También se puede utilizar para extraer datos de Hadoop y exportarlos a almacenes de datos estructurados externos como bases de datos relacionales y almacenes de datos empresariales. Sqoop es una herramienta de línea de comandos, mapeando entre las tablas y la capa de almacenamiento de datos, traduciendo las tablas en una combinación configurable de HDFS, HBase o Hive.

Pig1

Cuando los datos almacenados son visibles para Hadoop, Cerdo apache se sumerge en los datos y ejecuta el código que está escrito en su propio idioma, llamado Pig Latin. Pig Latin está lleno de abstracciones para manejar los datos. Pig viene con funciones estándar para tareas comunes como promediar datos, trabajar con fechas o encontrar diferencias entre cadenas. Pig también permite al usuario escribir idiomas por su cuenta, denominada UDF (función definida por el usuario), cuando las funciones estándar se quedan cortas.

zookeper

Zookeeper es un servicio centralizado que mantiene, configura información, le da un nombre y proporciona sincronización distribuida en un clúster. Impone una jerarquía similar a un sistema de archivos en el clúster y almacena todos los metadatos de las máquinas, para que podamos sincronizar el trabajo de las distintas máquinas.

NoSQL

Algunos clústeres de Hadoop se integran con NoSQL almacenes de datos que vienen con sus propios mecanismos para almacenar datos en un grupo de nodos. Esto les permite almacenar y recuperar datos con todas las características de la base de datos NoSQL, después de lo cual Hadoop puede usarse para programar trabajos de análisis de datos en el mismo clúster.

mahoutlogo

Cuidador de elefantes está diseñado para implementar una gran cantidad de algoritmos, clasificaciones y filtrado de análisis de datos al clúster Hadoop. Muchos de los algoritmos estándar como K-means, Dirichelet, patrón paralelo y clasificaciones bayesianas están listos para ejecutarse en los datos con un mapa de estilo Hadoop y reducir.

Lucene, escrito en Java e integrado fácilmente con Hadoop, es un compañero natural para Hadoop. Es una herramienta diseñada para indexar grandes bloques de texto no estructurado. Lucene maneja la indexación, mientras que Hadoop maneja las consultas distribuidas en todo el clúster. Las características de Lucene-Hadoop están evolucionando rápidamente a medida que se desarrollan nuevos proyectos.

Avro

Euro es un sistema de serialización que agrupa los datos junto con un esquema para comprenderlos. Cada paquete viene con una estructura de datos JSON. JSON explica cómo se pueden analizar los datos. El encabezado de JSON especifica la estructura de los datos, donde se puede evitar la necesidad de escribir etiquetas adicionales en los datos para marcar los campos. La salida es considerablemente más compacta que los formatos tradicionales como XML.

Un trabajo se puede simplificar dividiéndolo en pasos. Al dividir el proyecto en varios trabajos de Hadoop, Oozie comienza a procesarlos en la secuencia correcta. Gestiona el flujo de trabajo según lo especificado por DAG (Gráfico acíclico dirigido) y no hay necesidad de un seguimiento oportuno.

Herramientas GIS

Trabajar con mapas geográficos es un gran trabajo para los clústeres que ejecutan Hadoop. El GIS ( Sistema de información geográfica ) para los proyectos de Hadoop han adaptado las mejores herramientas basadas en Java para comprender la información geográfica y ejecutarla con Hadoop. Las bases de datos ahora pueden manejar consultas geográficas usando coordenadas y los códigos pueden implementar las herramientas GIS.

Recopilar todos los datos equivale a almacenarlos y analizarlos. Apache Flume envía 'agentes especiales' para recopilar información que se almacenará en HDFS. La información recopilada puede ser archivos de registro, API de Twitter o mensajes para el bloc de notas de sitios web. Estos datos se pueden encadenar y someter a análisis.

Spark

Chispa - chispear es la próxima generación que funciona prácticamente como Hadoop que procesa los datos almacenados en caché en la memoria. Su objetivo es hacer que el análisis de datos sea rápido para ejecutar y escribir con un modelo de ejecución general. Esto puede optimizar gráficos de operador arbitrarios y admitir la computación en memoria, lo que le permite consultar datos más rápido que los motores basados ​​en disco como Hadoop.

SQL en Hadoop

Cuando se requiere ejecutar una consulta ad-hoc rápida de todos los datos en el clúster, se puede escribir un nuevo trabajo de Hadoop, pero esto lleva algo de tiempo. Cuando los programadores comenzaron a hacer esto con más frecuencia, se les ocurrieron herramientas escritas en el lenguaje simple de SQL. Estas herramientas ofrecen un acceso rápido a los resultados.

Taladro Apache

Apache Drill proporciona consultas ad-hoc de baja latencia a numerosas y variadas fuentes de datos, incluidos datos anidados. Drill, inspirado en Dremel de Google, está diseñado para escalar a 10,000 servidores y consultar petabytes de datos en segundos.

¡Estas son las herramientas esenciales de Hadoop para procesar Big Data!

Tienes una pregunta para nosotros? Por favor, menciónelos en la sección de comentarios y nos comunicaremos con usted.

Artículos Relacionados:

Razones prácticas para aprender Hadoop 2.0