APACHE FLINK: EL MARCO DE ANÁLISIS DE BIG DATA DE PRÓXIMA GENERACIÓN

Apache Flink es una plataforma de código abierto para el procesamiento de datos por lotes y flujos distribuidos. Puede ejecutarse en Windows, Mac OS y Linux OS. En esta publicación de blog, analicemos cómo configurar el clúster Flink localmente. Es similar a Spark en muchos aspectos (tiene API para procesamiento de aprendizaje automático y gráfico como Apache Spark), pero Apache Flink y Apache Spark no son exactamente iguales.

Para configurar el clúster Flink, debe tener java 7.xo superior instalado en su sistema. Dado que tengo Hadoop-2.2.0 instalado en mi extremo en CentOS (Linux), he descargado el paquete Flink que es compatible con Hadoop 2.x. Ejecute el siguiente comando para descargar el paquete Flink.

Mando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Descomprima el archivo para obtener el directorio flink.

Mando: tar -xvf Descargas / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Mando: ls

Agregue las variables de entorno de Flink en el archivo .bashrc.

Mando: sudo gedit .bashrc

Debe ejecutar el siguiente comando para que se activen los cambios en el archivo .bashrc

Mando: fuente .bashrc

Ahora vaya al directorio flink e inicie el clúster localmente.

Mando: cd hefty-1.0.0

que hace un administrador de linux

Mando: bin / start-local.sh

Una vez que haya iniciado el clúster, podrá ver un nuevo daemon JobManager en ejecución.

Mando: jps

Abra el navegador y vaya a http: // localhost: 8081 para ver la interfaz de usuario web de Apache Flink.

Ejecutemos un ejemplo simple de conteo de palabras usando Apache Flink.

Antes de ejecutar el ejemplo, instale netcat en su sistema (sudo yum install nc).

Ahora, en una nueva terminal, ejecute el siguiente comando.

Mando: nc -lk 9000

Ejecute el siguiente comando en la terminal flink. Este comando ejecuta un programa que toma los datos transmitidos como entrada y realiza una operación de recuento de palabras en esos datos transmitidos.

Mando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –nombre de host localhost –port 9000

En la interfaz de usuario web, podrá ver un trabajo en estado de ejecución.

Ejecute el siguiente comando en una nueva terminal, esto imprimirá los datos transmitidos y procesados.

Mando: tail -f log / flink - * - jobmanager - *. out

Ahora vaya a la terminal donde inició netcat y escriba algo.

En el momento en que presione el botón Intro en su palabra clave después de escribir algunos datos en la terminal netcat, la operación de recuento de palabras se aplicará a esos datos y la salida se imprimirá aquí (registro del administrador de trabajos de flink) en milisegundos.

En un lapso de tiempo muy, muy corto, los datos se transmitirán, procesarán e imprimirán.

Hay mucho más que aprender sobre Apache Flink. Abordaremos otros temas de Flink en nuestro próximo blog.

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos comunicaremos contigo.

Artículos Relacionados:

Apache Falcon: nueva plataforma de gestión de datos para el ecosistema Hadoop

Apache Flink: el marco de análisis de Big Data de próxima generación para el procesamiento de datos por lotes y por secuencias

Aprenda todo sobre Apache Flink y la configuración de un clúster de Flink en este blog. Flink admite el procesamiento por lotes y en tiempo real y es una tecnología de Big Data imprescindible para Big Data Analytics.

Categorías

Popular Articles

Todo lo que necesita saber sobre el balanceador de carga de aplicaciones

¿Qué es Azure? - Introducción a la nube de Microsoft Azure

¿Qué es la agregación en Java y por qué la necesita?

Golang vs Python: ¿Cuál elegir?

Tutorial de Hive - Arquitectura de Hive y estudio de caso de la NASA

¿Cuál es la mejor forma de utilizar Transform en CSS?

¿Cómo implementar la función file_exists en PHP?

¿Por qué el entrenamiento de Python es esencial para trabajos de Big Data?

Principales herramientas de marketing digital que debe conocer

Historia de éxito de Edureka: la transición de Shyam de consultor de almacenamiento de EMC a líder tecnológico

Los 10 principales beneficios de la inteligencia artificial

Salario de desarrollador de Power BI: información y tendencias que necesita conocer