Instalación de Apache Hive en Ubuntu



En este blog, aprenderemos sobre la instalación de Apache Hive en Ubuntu y los conceptos relacionados con Hadoop Hive, Hive sql, base de datos Hive, servidor Hive e instalación de Hive.

Apache Hive es uno de los marcos más importantes del ecosistema Hadoop, lo que a su vez lo hace muy crucial para . En este blog, aprenderemos sobre la instalación de Apache Hive y Hive en Ubuntu.

¿Qué es Apache Hive?

Apache Hive es una infraestructura de almacenamiento de datos que facilita la consulta y la gestión de grandes conjuntos de datos que residen en un sistema de almacenamiento distribuido. Está construido sobre Hadoop y desarrollado por Facebook. Colmena proporciona una forma de consultar los datos utilizando un lenguaje de consulta similar a SQL llamado HiveQL (lenguaje de consulta de Hive).





Internamente, un compilador traduce HiveQL declaraciones en Mapa reducido trabajos, que luego se envían a Marco de Hadoop para su ejecución.

Diferencia entre Hive y SQL:

Colmena se parece mucho a la base de datos tradicional con SQL acceso. Sin embargo, porque Colmena está basado en Hadoop y Mapa reducido operaciones, existen varias diferencias clave:



Como Hadoop está diseñado para exploraciones secuenciales largas y Colmena está basado en Hadoop , esperaría que las consultas tuvieran una latencia muy alta. Esto significa que Colmena no sería apropiado para aquellas aplicaciones que necesitan tiempos de respuesta muy rápidos, como se puede esperar con una base de datos RDBMS tradicional.

Finalmente, Colmena está basado en lectura y, por lo tanto, no es apropiado para el procesamiento de transacciones que generalmente involucra un alto porcentaje de operaciones de escritura.

declarando una matriz de objetos en java

Instalación de Hive en Ubuntu:

Siga los pasos a continuación para instalar Apache Hive en Ubuntu:



Paso 1: Descargar Alquitrán de colmena.

Mando: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Paso 2: Extrae el alquitrán archivo.

Mando: tar -xzf apache-hive-2.1.0-bin.tar.gz

Mando: ls

Untar Hive File - Hive Installation - Edureka

Paso 3: Edite el '.Bashrc' archivo para actualizar las variables de entorno para el usuario.

Mando: sudo gedit .bashrc

Agregue lo siguiente al final del archivo:

# Establecer HIVE_HOME

exportar HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

Además, asegúrese de que la ruta hadoop también esté configurada.

Ejecute el siguiente comando para que los cambios funcionen en la misma terminal.

Mando: fuente .bashrc

Etapa 4: Verifique la versión de la colmena.

que es un certificado de posgrado

Paso 5: Crear Colmena directorios dentro HDFS . El directorio 'almacén' es la ubicación para almacenar la tabla o los datos relacionados con Hive.

Mando:

  • hdfs dfs -mkdir -p / usuario / colmena / almacén
  • hdfs dfs -mkdir / tmp

Paso 6: Establezca permisos de lectura / escritura para la tabla.

Mando:

En este comando, le damos permiso de escritura al grupo:

  • hdfs dfs -chmod g + w / usuario / colmena / almacén
  • hdfs dfs -chmod g + w / tmp

Paso 7: Conjunto Hadoop camino en h ive-env.sh

Mando: cd apache-hive-2.1.0-bin /

Mando: gedit conf / hive-env.sh

Configure los parámetros como se muestra en la siguiente instantánea.

Paso 8: Editar hive-site.xml

Mando: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true Cadena de conexión JDBC para un metastore JDBC. Para utilizar SSL para cifrar / autenticar la conexión, proporcione el indicador SSL específico de la base de datos en la URL de la conexión. Por ejemplo, jdbc: postgresql: // myhost / db? Ssl = true para la base de datos de Postgres. hive.metastore.warehouse.dir / user / hive / warehouse ubicación de la base de datos predeterminada para el almacén hive.metastore.uris Thrift URI para el metastore remoto. Utilizado por el cliente de metastore para conectarse a metastore remoto. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Nombre de clase de controlador para una tienda de metas JDBC javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory clase que implementa la persistencia jdo

Paso 9: De forma predeterminada, Hive usa derby base de datos. Inicializar la base de datos de Derby.

Mando: bin / schematool -initSchema -dbType derby

Paso 10 :Lanzamiento Colmena.

Mando: colmena

Paso 11 :Ejecute algunas consultas en el shell de Hive.

Mando: mostrar bases de datos

Mando: crear tabla empleado (cadena de identificación, cadena de nombre, cadena de departamento) campos delimitados por formato de fila terminados por '' almacenados como archivo de texto

Mando: mostrar tablas

que es mutable en java

Paso 12: Para salir de Colmena:

Mando: Salida

Ahora que ha terminado con la instalación de Hive, el siguiente paso es probar los comandos de Hive en el shell de Hive. De ahí que nuestro próximo blog ' Principales comandos de Hive con ejemplos en HQL ”Te ayudará a dominar los comandos de Hive.

Artículos Relacionados:

¿Cómo ejecutar Hive Scripts?

Comandos de Hive

Introducción a Apache Hive