Instalación de Apache Pig en Linux



Este blog es una guía paso a paso para la instalación de Apache Pig en un entorno Linux. Instalaremos Apache Pig 0.16.0 y lo ejecutaremos en diferentes modos.

En este post, hablaré sobre Instalación de Apache Pig en Linux . Comencemos con la definición básica de Apache Pig y Pig Latin.

Cerdo apache es una herramienta / plataforma para crear y ejecutar el programa Map Reduce utilizado con Hadoop. Es una herramienta / plataforma para analizar grandes conjuntos de datos. Puede decir que Apache Pig es una abstracción de MapReduce. Los programadores que no son tan buenos en Java solían tener dificultades para trabajar en Hadoop, principalmente mientras escribían trabajos de MapReduce.Por lo tanto, es un tema importante para aprender y dominar .Apache Pig tiene su propio idioma Jerga lo cual es una bendición para los programadores pobres.





Una introducción básica a Pig Latin lo ayudará a comprender mejor:

El lenguaje de procedimiento de alto nivel utilizado en la plataforma Apache Pig se llama Jerga . Apache Pig presenta 'Pig Latin', que es un lenguaje relativamente más simple que puede ejecutarse sobre conjuntos de datos distribuidos en Hadoop File System (HDFS). En Apache Pig, debe escribir scripts de Pig utilizando el lenguaje Pig Latin, que se convierte al trabajo MapReduce cuando ejecuta su script de Pig. Apache Pig tiene varios operadores que se utilizan para realizar tareas como leer, escribir y procesar los datos. Para obtener más información sobre los operadores de Apache Pig, visite nuestro blog ' Operadores en Apache Pig: Parte 1- Operadores relacionales ”.

Ahora que tiene conocimientos básicos de Apache Pig, comencemos con la instalación de Apache Pig en Linux.



Instalación de Apache Pig en Linux:

A continuación se muestran los pasos para la instalación de Apache Pig en Linux (ubuntu / centos / windows usando Linux VM). Estoy usando Ubuntu 16.04 en la siguiente configuración.

Paso 1: Descargar Cerdo alquitrán archivo.

Mando: wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz



Descargar Pig - Pig Installation - Edureka

Paso 2: Extrae el alquitrán archivo usando el comando tar. En el siguiente comando tar, x significa extraer un archivo de almacenamiento, con significa filtrar un archivo a través de gzip, F significa nombre de archivo de un archivo de almacenamiento.

cómo usar conjuntos en java

Mando: tar -xzf cerdo-0.16.0.tar.gz

Mando: ls

Paso 3: Edite el ' .bashrc ”Para actualizar las variables de entorno de Apache Pig. Lo estamos configurando para que podamos acceder a pig desde cualquier directorio, no necesitamos ir al directorio de pig para ejecutar comandos de pig. Además, si cualquier otra aplicación está buscando Pig, conocerá la ruta de Apache Pig desde este archivo.

Mando: sudo gedit .bashrc

Agregue lo siguiente al final del archivo:

# Establecer PIG_HOME

exportar PIG_HOME = / home / edureka / pig-0.16.0
export PATH = $ PATH: /home/edureka/pig-0.16.0/bin
exportar PIG_CLASSPATH = $ HADOOP_CONF_DIR

Además, asegúrese de que la ruta hadoop también esté configurada.

Ejecute el siguiente comando para que los cambios se actualicen en la misma terminal.

Mando: fuente .bashrc

Etapa 4: Compruebe la versión de cerdo. Esto es para probar que Apache Pig se instaló correctamente. En caso de que no obtenga la versión de Apache Pig, debe verificar si ha seguido los pasos anteriores correctamente.

tipo de transformación en informática

Mando: cerdo -versión

Paso 5 :Consulte la ayuda de cerdo para ver todas las opciones de comando de cerdo.

Mando: cerdo -ayuda

Paso 6 :Ejecute Pig para iniciar el caparazón de gruñido. Grunt shell se utiliza para ejecutar scripts de Pig Latin.

Mando: cerdo

¿Qué es la ciencia de datos?

Si observa la imagen de arriba correctamente, Apache Pig tiene dos modos en los que se puede ejecutar, por defecto elige el modo MapReduce. El otro modo en el que puede ejecutar Pig es el modo Local. Déjame contarte más sobre esto.

Modos de ejecución en Apache Pig:

  • Modo MapReduce - Este es el modo predeterminado, que requiere acceso a un clúster de Hadoop e instalación de HDFS. Dado que este es un modo predeterminado, no es necesario especificar el indicador -x (puede ejecutar cerdo O cerdo -x mapreduce ). La entrada y salida en este modo están presentes en HDFS.
  • Modo local - Con acceso a una sola máquina, todos los archivos se instalan y ejecutan utilizando un sistema de archivos y host local. Aquí, el modo local se especifica mediante '-x flag' ( cerdo -x local ). La entrada y la salida en este modo están presentes en el sistema de archivos local.

Mando: cerdo -x local

Puede ver el siguiente video para ver la instalación de Apache Pig en Linux:

Instalación de Apache Pig | Instalación de Pig en Linux | Edureka

Ahora que ha terminado con la instalación de Apache Pig en Linux, el siguiente paso es probar algunos operadores Pig relacionales en el shell Pig Grunt. Por lo tanto, el próximo blog ' Operadores en Apache Pig: Parte 1- Operadores relacionales ”Le ayudará a dominar los operadores de cerdo.

Ahora que ha instalado Apache Pig en Linux, consulte el por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Edureka Big Data Hadoop ayuda a los alumnos a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de Retail, Social Media, Aviación, Turismo, Finanzas.

Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos pondremos en contacto con usted.