Apache Hive es uno de los marcos más importantes del ecosistema Hadoop, lo que a su vez lo hace muy crucial para . En este blog, aprenderemos sobre la instalación de Apache Hive y Hive en Ubuntu.
¿Qué es Apache Hive?
Apache Hive es una infraestructura de almacenamiento de datos que facilita la consulta y la gestión de grandes conjuntos de datos que residen en un sistema de almacenamiento distribuido. Está construido sobre Hadoop y desarrollado por Facebook. Colmena proporciona una forma de consultar los datos utilizando un lenguaje de consulta similar a SQL llamado HiveQL (lenguaje de consulta de Hive).
Internamente, un compilador traduce HiveQL declaraciones en Mapa reducido trabajos, que luego se envían a Marco de Hadoop para su ejecución.
Diferencia entre Hive y SQL:
Colmena se parece mucho a la base de datos tradicional con SQL acceso. Sin embargo, porque Colmena está basado en Hadoop y Mapa reducido operaciones, existen varias diferencias clave:
Como Hadoop está diseñado para exploraciones secuenciales largas y Colmena está basado en Hadoop , esperaría que las consultas tuvieran una latencia muy alta. Esto significa que Colmena no sería apropiado para aquellas aplicaciones que necesitan tiempos de respuesta muy rápidos, como se puede esperar con una base de datos RDBMS tradicional.
Finalmente, Colmena está basado en lectura y, por lo tanto, no es apropiado para el procesamiento de transacciones que generalmente involucra un alto porcentaje de operaciones de escritura.
declarando una matriz de objetos en java
Instalación de Hive en Ubuntu:
Siga los pasos a continuación para instalar Apache Hive en Ubuntu:
Paso 1: Descargar Alquitrán de colmena.
Mando: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
Paso 2: Extrae el alquitrán archivo.
Mando: tar -xzf apache-hive-2.1.0-bin.tar.gz
Mando: ls
Paso 3: Edite el '.Bashrc' archivo para actualizar las variables de entorno para el usuario.
Mando: sudo gedit .bashrc
Agregue lo siguiente al final del archivo:
# Establecer HIVE_HOME
exportar HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
Además, asegúrese de que la ruta hadoop también esté configurada.
Ejecute el siguiente comando para que los cambios funcionen en la misma terminal.
Mando: fuente .bashrc
Etapa 4: Verifique la versión de la colmena.
que es un certificado de posgrado
Paso 5: Crear Colmena directorios dentro HDFS . El directorio 'almacén' es la ubicación para almacenar la tabla o los datos relacionados con Hive.
Mando:
- hdfs dfs -mkdir -p / usuario / colmena / almacén
- hdfs dfs -mkdir / tmp
Paso 6: Establezca permisos de lectura / escritura para la tabla.
Mando:
En este comando, le damos permiso de escritura al grupo:
- hdfs dfs -chmod g + w / usuario / colmena / almacén
- hdfs dfs -chmod g + w / tmp
Paso 7: Conjunto Hadoop camino en h ive-env.sh
Mando: cd apache-hive-2.1.0-bin /
Mando: gedit conf / hive-env.sh
Configure los parámetros como se muestra en la siguiente instantánea.
Paso 8: Editar hive-site.xml
Mando: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true Cadena de conexión JDBC para un metastore JDBC. Para utilizar SSL para cifrar / autenticar la conexión, proporcione el indicador SSL específico de la base de datos en la URL de la conexión. Por ejemplo, jdbc: postgresql: // myhost / db? Ssl = true para la base de datos de Postgres. hive.metastore.warehouse.dir / user / hive / warehouse ubicación de la base de datos predeterminada para el almacén hive.metastore.uris Thrift URI para el metastore remoto. Utilizado por el cliente de metastore para conectarse a metastore remoto. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Nombre de clase de controlador para una tienda de metas JDBC javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory clase que implementa la persistencia jdo
Paso 9: De forma predeterminada, Hive usa derby base de datos. Inicializar la base de datos de Derby.
Mando: bin / schematool -initSchema -dbType derby
Paso 10 :Lanzamiento Colmena.
Mando: colmena
Paso 11 :Ejecute algunas consultas en el shell de Hive.
Mando: mostrar bases de datos
Mando: crear tabla empleado (cadena de identificación, cadena de nombre, cadena de departamento) campos delimitados por formato de fila terminados por '' almacenados como archivo de texto
Mando: mostrar tablas
que es mutable en java
Paso 12: Para salir de Colmena:
Mando: Salida
Ahora que ha terminado con la instalación de Hive, el siguiente paso es probar los comandos de Hive en el shell de Hive. De ahí que nuestro próximo blog ' Principales comandos de Hive con ejemplos en HQL ”Te ayudará a dominar los comandos de Hive.
Artículos Relacionados: