Introducción a Apache Hive



Apache Hive es un paquete de almacenamiento de datos construido sobre Hadoop y se utiliza para el análisis de datos. Hive está dirigido a usuarios que se sienten cómodos con SQL.

Apache Hive es un paquete de almacenamiento de datos construido sobre Hadoop y se utiliza para el análisis de datos. Hive está dirigido a usuarios que se sienten cómodos con SQL. Es similar a SQL y se llama HiveQL, y se usa para administrar y consultar datos estructurados. Apache Hive se utiliza para abstraer la complejidad de Hadoop. Este lenguaje también permite a los programadores tradicionales de mapas / reducciones conectar sus mapeadores y reductores personalizados. La característica popular de Hive es que no es necesario aprender Java.





Hive, un marco de almacenamiento de fechas de escala de petabytes de código abierto basado en Hadoop, fue desarrollado por el equipo de infraestructura de datos de Facebook. Hive también es una de las tecnologías que se utilizan para abordar los requisitos en Facebook. Hive es muy popular entre todos los usuarios internamente en Facebook y se utiliza para ejecutar miles de trabajos en el clúster con cientos de usuarios, para una amplia variedad de aplicaciones. El clúster Hive-Hadoop en Facebook almacena más de 2 PB de datos sin procesar y carga regularmente 15 TB de datos a diario.

usando r para el aprendizaje automático

Veamos algunas de sus características que lo hacen popular y fácil de usar:



  • Permite a los programadores conectar mapeadores y reductores personalizados.
  • Tiene infraestructura de Data Warehouse.
  • Proporciona herramientas para permitir ETL de datos fácil.
  • Define un lenguaje de consulta similar a SQL llamado QL.

Caso de uso de Apache Hive - Facebook:

Caso de uso de Hive - Facebook

Antes de implementar Hive, Facebook enfrentó muchos desafíos a medida que el tamaño de los datos que se generaban aumentaba o más bien explotaba, lo que dificultaba mucho su manejo. El RDBMS tradicional no podía soportar la presión y, como resultado, Facebook estaba buscando mejores opciones. Para resolver este problema inminente, Facebook inicialmente intentó usar Hadoop MapReduce, pero con dificultad en la programación y conocimiento obligatorio en SQL, lo convirtió en una solución poco práctica. Hive les permitió superar los desafíos a los que se enfrentaban.

Con Hive, ahora pueden realizar lo siguiente:



  • Las mesas se pueden dividir en porciones y en grupos
  • Flexibilidad y evolución del esquema
  • Los controladores JDBC / ODBC están disponibles
  • Las tablas de Hive se pueden definir directamente en HDFS
  • Extensible: tipos, formatos, funciones y scripts

Caso de uso de Hive en el sector sanitario:

¿Dónde usar Hive?

Apache Hive se puede utilizar en los siguientes lugares:

  • Procesamiento de datos
  • Procesamiento de registros
  • Indexación de documentos
  • Inteligencia empresarial orientada al cliente
  • Modelado predictivo
  • Prueba de hipótesis

Arquitectura de la colmena:

Hive consta de los siguientes componentes principales:

  • Metastore: para almacenar los metadatos.
  • JDBC / ODBC: compilador de consultas y motor de ejecución para convertir consultas SQL en una secuencia de MapReduce.
  • SerDe y ObjectInspectors: para formatos y tipos de datos.
  • UDF / UDAF: para funciones definidas por el usuario.
  • Clientes: similar a la línea de comandos de MySQL y una interfaz de usuario web.

Componentes de Hive:

Metastore:

El Metastore almacena la información sobre las tablas, particiones y columnas dentro de las tablas. Hay 3 formas de almacenar en Metastore: Metastore integrado, Metastore local y Metastore remoto. Principalmente, Remote Metastore se utilizará en modo de producción.

Limitaciones de Hive:

Hive tiene las siguientes limitaciones y no se puede utilizar en tales circunstancias:

  • No diseñado para el procesamiento de transacciones en línea.
  • Proporciona una latencia aceptable para la exploración de datos interactiva.
  • No ofrece consultas en tiempo real ni actualizaciones de nivel de fila.
  • La latencia de las consultas de Hive es generalmente muy alta.

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos pondremos en contacto contigo.

Artículos Relacionados:

Comandos de Hive