Profundizando en Apache Drill, el motor de consultas de la nueva era



Este tutorial de Apache Drill le brinda toda la información que necesita para comenzar con el motor de consulta Apache Drill, el uso con Hadoop, Big Data y Apache Spark.

Apache Drill es el primer motor SQL sin esquemas de la industria. Drill no es el primer motor de consultas del mundo, pero es el primero que logra el delicado equilibrio entre flexibilidad y velocidad. Drill está diseñado para escalar a varios miles de nodos y consultar petabytes de datos a las velocidades interactivas que requieren los entornos de BI / Analytics.





Puede integrarse con varias fuentes de datos como Hive, HBase, MongoDB, sistema de archivos, RDBMS. Además, los formatos de entrada como Avro, CSV, TSV, PSV, Parquet, archivos de secuencia Hadoop y muchos otros se pueden usar en Drill con facilidad.

¿Por qué Apache Drill?

La mayor ventaja de Apache Drill es que puede descubrir el esquema sobre la marcha a medida que consulta cualquier dato. Además, puede funcionar con sus herramientas de BI como Tableau, Qlikview, MicroStrategy, etc. para obtener mejores análisis.



A continuación, se incluye una cita de un analista de la industria que resume el valor de Apache Drill:

“Drill no se trata solo de SQL-on-Hadoop. Se trata de SQL en prácticamente cualquier cosa, de inmediato y sin formalidades '.

- Andrew Burst, Gigaom Research, enero de 2015



Drillbit es el demonio de Apache Drill que se ejecuta en cada nodo del clúster. Utiliza ZooKeeper para toda la comunicación en el clúster y la membresía del clúster de mantenimiento. Es responsable de aceptar las solicitudes del cliente, procesar las consultas y devolver los resultados al cliente. La broca que recibe la solicitud del cliente se llama 'capataz'. Genera el plan de ejecución, los fragmentos de ejecución se envían a otras brocas que se ejecutan en el clúster.

Drillbits-Apache-Drill

Una ventaja más es que la instalación y configuración del taladro es bastante simple. Aprendamos a instalar Apache Drill.

El primer paso es descargar el paquete de ejercicios.

java que es un vector

Mando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Mando: tar -xvf apache-drill-1.5.0.tar.gz

Mando: ls

A continuación, configure las variables de entorno en el archivo .bashrc.

Mando: sudo gedit .bashrc

exportar DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Este comando actualizará los cambios:

Mando: fuente .bashrc

Ahora vaya al directorio drill conf y edite el archivo drill-override.conf con la identificación del clúster y el host y el puerto de zookeeper, lo ejecutaremos en un clúster local.

Mando: cd apache-drill-1.5.0

Mando: sudo gedit conf / drill-override.conf

Por defecto, DRILL_MAX_DIRECT_MEMORY será de 8 GB en drill-env.sh, y debemos mantenerlo de acuerdo con la memoria que tengamos.

Mando: sudo gedit conf / drill-env.sh

Para instalar la exploración solo en un único nodo, puede usar el modo integrado, donde se ejecutará localmente. Automáticamente iniciará el servicio drillbit cuando ejecute este comando.

Mando: ./bin/drill-embedded

Puede ejecutar una consulta simple para verificar la instalación.

Mando: seleccione * de sys.options DONDE escriba = 'SISTEMA' y nombre como 'seguridad%'

uso de escáner en java

Para verificar la consola web de Apache Drill, debemos ir a localhost: 8047 en el navegador web.

También puede ejecutar su consulta desde la pestaña Consulta.

Para ejecutar la exploración en modo distribuido, debe editar la ID del clúster y agregar la información de ZooKeeper en drill-override.conf como se muestra a continuación.

Luego, debemos iniciar el servicio ZooKeeper en cada nodo. Después de eso, debe iniciar el servicio de perforación en cada nodo con este comando.

Mando: ./bin/drillbit.sh inicio

Mando: jps

Ahora, usamos el siguiente comando para iniciar el shell de perforación.

Ahora, podemos ejecutar nuestras consultas en el clúster en modo distribuido.

Esta es la primera publicación de blog de una serie de blogs de Apache Drill de dos partes. El segundo blog de la serie llegará pronto.

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos comunicaremos contigo.

Artículos Relacionados:

Profundizando en Apache Drill Parte 2

Apache Spark Vs Hadoop MapReduce