Apache Drill es el primer motor SQL sin esquemas de la industria. Drill no es el primer motor de consultas del mundo, pero es el primero que logra el delicado equilibrio entre flexibilidad y velocidad. Drill está diseñado para escalar a varios miles de nodos y consultar petabytes de datos a las velocidades interactivas que requieren los entornos de BI / Analytics.
Puede integrarse con varias fuentes de datos como Hive, HBase, MongoDB, sistema de archivos, RDBMS. Además, los formatos de entrada como Avro, CSV, TSV, PSV, Parquet, archivos de secuencia Hadoop y muchos otros se pueden usar en Drill con facilidad.
¿Por qué Apache Drill?
La mayor ventaja de Apache Drill es que puede descubrir el esquema sobre la marcha a medida que consulta cualquier dato. Además, puede funcionar con sus herramientas de BI como Tableau, Qlikview, MicroStrategy, etc. para obtener mejores análisis.
A continuación, se incluye una cita de un analista de la industria que resume el valor de Apache Drill:
“Drill no se trata solo de SQL-on-Hadoop. Se trata de SQL en prácticamente cualquier cosa, de inmediato y sin formalidades '.
- Andrew Burst, Gigaom Research, enero de 2015
Drillbit es el demonio de Apache Drill que se ejecuta en cada nodo del clúster. Utiliza ZooKeeper para toda la comunicación en el clúster y la membresía del clúster de mantenimiento. Es responsable de aceptar las solicitudes del cliente, procesar las consultas y devolver los resultados al cliente. La broca que recibe la solicitud del cliente se llama 'capataz'. Genera el plan de ejecución, los fragmentos de ejecución se envían a otras brocas que se ejecutan en el clúster.
Una ventaja más es que la instalación y configuración del taladro es bastante simple. Aprendamos a instalar Apache Drill.
El primer paso es descargar el paquete de ejercicios.
java que es un vector
Mando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Mando: tar -xvf apache-drill-1.5.0.tar.gz
Mando: ls
A continuación, configure las variables de entorno en el archivo .bashrc.
Mando: sudo gedit .bashrc
exportar DRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Este comando actualizará los cambios:
Mando: fuente .bashrc
Ahora vaya al directorio drill conf y edite el archivo drill-override.conf con la identificación del clúster y el host y el puerto de zookeeper, lo ejecutaremos en un clúster local.
Mando: cd apache-drill-1.5.0
Mando: sudo gedit conf / drill-override.conf
Por defecto, DRILL_MAX_DIRECT_MEMORY será de 8 GB en drill-env.sh, y debemos mantenerlo de acuerdo con la memoria que tengamos.
Mando: sudo gedit conf / drill-env.sh
Para instalar la exploración solo en un único nodo, puede usar el modo integrado, donde se ejecutará localmente. Automáticamente iniciará el servicio drillbit cuando ejecute este comando.
Mando: ./bin/drill-embedded
Puede ejecutar una consulta simple para verificar la instalación.
Mando: seleccione * de sys.options DONDE escriba = 'SISTEMA' y nombre como 'seguridad%'
uso de escáner en java
Para verificar la consola web de Apache Drill, debemos ir a localhost: 8047 en el navegador web.
También puede ejecutar su consulta desde la pestaña Consulta.
Para ejecutar la exploración en modo distribuido, debe editar la ID del clúster y agregar la información de ZooKeeper en drill-override.conf como se muestra a continuación.
Luego, debemos iniciar el servicio ZooKeeper en cada nodo. Después de eso, debe iniciar el servicio de perforación en cada nodo con este comando.
Mando: ./bin/drillbit.sh inicio
Mando: jps
Ahora, usamos el siguiente comando para iniciar el shell de perforación.
Ahora, podemos ejecutar nuestras consultas en el clúster en modo distribuido.
Esta es la primera publicación de blog de una serie de blogs de Apache Drill de dos partes. El segundo blog de la serie llegará pronto.
Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos comunicaremos contigo.
Artículos Relacionados: