Apache Flink es una plataforma de código abierto para el procesamiento de datos por lotes y flujos distribuidos. Puede ejecutarse en Windows, Mac OS y Linux OS. En esta publicación de blog, analicemos cómo configurar el clúster Flink localmente. Es similar a Spark en muchos aspectos (tiene API para procesamiento de aprendizaje automático y gráfico como Apache Spark), pero Apache Flink y Apache Spark no son exactamente iguales.
Para configurar el clúster Flink, debe tener java 7.xo superior instalado en su sistema. Dado que tengo Hadoop-2.2.0 instalado en mi extremo en CentOS (Linux), he descargado el paquete Flink que es compatible con Hadoop 2.x. Ejecute el siguiente comando para descargar el paquete Flink.
Mando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Descomprima el archivo para obtener el directorio flink.
Mando: tar -xvf Descargas / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Mando: ls
Agregue las variables de entorno de Flink en el archivo .bashrc.
Mando: sudo gedit .bashrc
Debe ejecutar el siguiente comando para que se activen los cambios en el archivo .bashrc
Mando: fuente .bashrc
Ahora vaya al directorio flink e inicie el clúster localmente.
Mando: cd hefty-1.0.0
que hace un administrador de linux
Mando: bin / start-local.sh
Una vez que haya iniciado el clúster, podrá ver un nuevo daemon JobManager en ejecución.
Mando: jps
Abra el navegador y vaya a http: // localhost: 8081 para ver la interfaz de usuario web de Apache Flink.
Ejecutemos un ejemplo simple de conteo de palabras usando Apache Flink.
Antes de ejecutar el ejemplo, instale netcat en su sistema (sudo yum install nc).
Ahora, en una nueva terminal, ejecute el siguiente comando.
Mando: nc -lk 9000
Ejecute el siguiente comando en la terminal flink. Este comando ejecuta un programa que toma los datos transmitidos como entrada y realiza una operación de recuento de palabras en esos datos transmitidos.
Mando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –nombre de host localhost –port 9000
En la interfaz de usuario web, podrá ver un trabajo en estado de ejecución.
Ejecute el siguiente comando en una nueva terminal, esto imprimirá los datos transmitidos y procesados.
Mando: tail -f log / flink - * - jobmanager - *. out
Ahora vaya a la terminal donde inició netcat y escriba algo.
En el momento en que presione el botón Intro en su palabra clave después de escribir algunos datos en la terminal netcat, la operación de recuento de palabras se aplicará a esos datos y la salida se imprimirá aquí (registro del administrador de trabajos de flink) en milisegundos.
En un lapso de tiempo muy, muy corto, los datos se transmitirán, procesarán e imprimirán.
Hay mucho más que aprender sobre Apache Flink. Abordaremos otros temas de Flink en nuestro próximo blog.
Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos comunicaremos contigo.
Artículos Relacionados:
Apache Falcon: nueva plataforma de gestión de datos para el ecosistema Hadoop