Apache Spark con Hadoop: ¿por qué es importante?



La implementación de Apache Spark con Hadoop a gran escala por parte de las principales empresas indica su éxito y su potencial cuando se trata de procesamiento en tiempo real.

Hadoop, el marco de procesamiento de datos que se ha convertido en una plataforma en sí mismo, se vuelve aún mejor cuando se conectan buenos componentes. Algunas deficiencias de Hadoop, como el componente MapReduce de Hadoop, tienen la reputación de ser lentas para el análisis de datos en tiempo real.





Ingrese Apache Spark, un motor de procesamiento de datos basado en Hadoop diseñado para cargas de trabajo por lotes y de transmisión, ahora en su versión 1.0 y equipado con características que ejemplifican qué tipo de trabajo se está impulsando a incluir a Hadoop. Spark se ejecuta sobre los clústeres de Hadoop existentes para proporcionar una funcionalidad mejorada y adicional.

Veamos las características clave de Spark y cómo funciona junto con Hadoop y .



Beneficios clave de Apache Spark:

img2-R

Características asombrosas de Spark:

  • Integración de Hadoop - Spark puede trabajar con archivos almacenados en HDFS.
  • Shell interactivo de Spark - Spark está escrito en Scala y tiene su propia versión del intérprete de Scala.
  • Suite analítica de Spark - Spark viene con herramientas para análisis de consultas interactivas, procesamiento y análisis de gráficos a gran escala y análisis en tiempo real.
  • Conjuntos de datos distribuidos resilientes (RDD) - Los RDD son objetos distribuidos que se pueden almacenar en caché en la memoria, en un grupo de nodos de cómputo. Son los objetos de datos principales que se utilizan en Spark.
  • Operadores distribuidos - Además de MapReduce, hay muchos otros operadores que se pueden usar en RDD.

Ventajas de usar Apache Spark con Hadoop:

cómo escribir escáner en java
  • Apache Spark encaja en la comunidad de código abierto de Hadoop, sobre la base del sistema de archivos distribuido de Hadoop (HDFS). Sin embargo, Spark no está vinculado al paradigma de MapReduce de dos etapas y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.



  • Muy adecuado para algoritmos de aprendizaje automático - Spark proporciona primitivas para la computación de clústeres en memoria que permite a los programas de usuario cargar datos en la memoria de un clúster y consultarlos repetidamente.

  • Corre 100 veces más rápido - Spark, el software de análisis también puede acelerar los trabajos que se ejecutan en la plataforma de procesamiento de datos Hadoop. Apodada la “navaja suiza Hadoop”, Apache Spark ofrece la capacidad de crear trabajos de análisis de datos que pueden ejecutarse 100 veces más rápido que los que se ejecutan en el estándar Apache Hadoop MapReduce. MapReduce ha sido ampliamente criticado como un cuello de botella en los clústeres de Hadoop porque ejecuta trabajos en modo por lotes, lo que significa que el análisis de datos en tiempo real no es posible.

    cómo instalar hadoop en linux
  • Alternativa a MapReduce - Spark proporciona una alternativa a MapReduce. Ejecuta trabajos en ráfagas cortas de micro-lotes que están separados por cinco segundos o menos. También proporciona más estabilidad que los marcos Hadoop orientados a la transmisión en tiempo real, como Twitter Storm. El software se puede utilizar para una variedad de trabajos, como un análisis continuo de datos en vivo y, gracias a una biblioteca de software, trabajos con mayor profundidad computacional que involucran el aprendizaje automático y el procesamiento de gráficos.

  • Soporte para varios idiomas - Con Spark, los desarrolladores pueden escribir trabajos de análisis de datos en Java, Scala o Python, utilizando un conjunto de más de 80 operadores de alto nivel.

  • Soporte de biblioteca - Las bibliotecas de Spark están diseñadas para complementar los tipos de trabajos de procesamiento que se exploran de manera más agresiva con las últimas implementaciones de Hadoop con soporte comercial. MLlib implementa una gran cantidad de algoritmos comunes de aprendizaje automático, como la clasificación bayesiana ingenua o la agrupación en clústeres Spark Streaming permite el procesamiento de alta velocidad de datos ingeridos de múltiples fuentes y GraphX ​​permite cálculos en datos gráficos.

  • API estable - Con la versión 1.0, Apache Spark ofrece una API (interfaz de programación de aplicaciones) estable, que los desarrolladores pueden usar para interactuar con Spark a través de sus propias aplicaciones. Esto ayuda a usar Storm más fácilmente en la implementación basada en Hadoop.

  • Componente SPARK SQL - El componente Spark SQL para acceder a datos estructurados, permite que los datos sean interrogados junto con datos no estructurados en el trabajo de análisis. Spark SQL, que solo está en alfa en este momento, permite que las consultas similares a SQL se ejecuten en los datos almacenados en Apache Hive. La extracción de datos de Hadoop a través de consultas SQL es otra variante de la funcionalidad de consulta en tiempo real que surge alrededor de Hadoop.

  • Compatibilidad de Apache Spark con Hadoop [HDFS, HBASE y YARN] - Apache Spark es totalmente compatible con el sistema de archivos distribuido de Hadoop (HDFS), así como con otros componentes de Hadoop como YARN (Yet Another Resource Negotiator) y la base de datos distribuida de HBase.

Adoptadores de la industria:

Empresas de TI como Cloudera, Pivotal, IBM, Intel y MapR han incorporado Spark en sus pilas de Hadoop. Databricks, una empresa fundada por algunos de los desarrolladores de Spark, ofrece soporte comercial para el software. Tanto Yahoo como la NASA, entre otros, utilizan el software para operaciones diarias de datos.

Conclusión:

Lo que Spark tiene para ofrecer seguramente será un gran atractivo tanto para los usuarios como para los proveedores comerciales de Hadoop. Los usuarios que buscan implementar Hadoop y que ya han construido muchos de sus sistemas de análisis en torno a Hadoop se sienten atraídos por la idea de poder utilizar Hadoop como un sistema de procesamiento en tiempo real.

Spark 1.0 les proporciona otra variedad de funciones para respaldar o crear elementos propietarios. De hecho, uno de los tres grandes proveedores de Hadoop, Cloudera, ya ha estado proporcionando soporte comercial para Spark a través de su oferta Cloudera Enterprise. Hortonworks también ha estado ofreciendo Spark como un componente de su distribución Hadoop. La implementación de Spark a gran escala por parte de las principales empresas indica su éxito y su potencial cuando se trata de procesamiento en tiempo real.

implementar lista enlazada en c

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos pondremos en contacto contigo.

Artículos Relacionados: