¿Dominas Hadoop? Es hora de comenzar con Apache Spark



¡Esta publicación de blog explica por qué debe comenzar con Apache Spark después de Hadoop y por qué aprender Spark después de dominar hadoop puede hacer maravillas en su carrera!

Hadoop, como todos sabemos, es el modelo del big data. Como marco de software capaz de procesar proporciones elefantinas de datos, Hadoop se ha abierto camino hasta la cima de la lista de palabras de moda de CIO.





Sin embargo, el aumento sin precedentes de la pila en memoria ha introducido el ecosistema de big data en una nueva alternativa para la analítica. La forma de análisis MapReduce está siendo reemplazada por un nuevo enfoque que permite el análisis tanto dentro del marco de Hadoop como fuera de él. Apache Spark es la nueva cara de la analítica de big data.

Conceptos básicos del servidor sql para principiantes

Los entusiastas de los macrodatos han certificado a Apache Spark como el motor de cómputo de datos más novedoso del mundo. Está expulsando rápidamente a MapReduce y Java de sus puestos, y las tendencias laborales reflejan este cambio. Según una encuesta de TypeSafe, el 71% de los desarrolladores de Java globales están evaluando o investigando en torno a Spark, y el 35% de ellos ya ha comenzado a usarlo. Los expertos en Spark están actualmente en demanda, y en las próximas semanas, se espera que la cantidad de oportunidades laborales relacionadas con Spark aumente por las nubes.



Entonces, ¿qué tiene Apache Spark que lo hace aparecer en la parte superior de todas las listas de tareas pendientes de los CIO?

pasando argumentos de línea de comando en java

Estas son algunas de las características interesantes de Apache Spark:

  • Integración de Hadoop - Spark puede trabajar con archivos almacenados en HDFS.
  • Shell interactivo de Spark - Spark está escrito en Scala y tiene su propia versión del intérprete de Scala.
  • Suite analítica de Spark - Spark viene con herramientas para análisis de consultas interactivas, procesamiento y análisis de gráficos a gran escala y análisis en tiempo real.
  • Conjuntos de datos distribuidos resistentes (RDD) - Los RDD son objetos distribuidos que se pueden almacenar en caché en la memoria, en un grupo de nodos informáticos. Son los objetos de datos principales que se utilizan en Spark.
  • Operadores distribuidos - Además de MapReduce, hay muchos otros operadores que se pueden usar en RDD.

Organizaciones como NASA, Yahoo y Adobe se han comprometido con Spark. Esto es lo que John Tripier, líder de alianzas y ecosistemas en Databricks, tiene que decir: “La adopción de Apache Spark por parte de empresas grandes y pequeñas está creciendo a un ritmo increíble en una amplia gama de industrias, y la demanda de desarrolladores con experiencia certificada es rápida siguiendo su ejemplo'. Nunca ha habido un mejor momento para aprender Spark si tienes experiencia en Hadoop.



Edureka ha curado especialmente un curso sobre Apache Spark y Scala, co-creado por profesionales de la industria de la vida real. Para una experiencia de e-learning en vivo diferenciada junto con proyectos relevantes para la industria, consulte nuestro curso. Pronto comenzarán nuevos lotes, así que consulte el curso aquí: .

Tienes una pregunta para nosotros? Menciónalo en la sección de comentarios y nos comunicaremos contigo.

Artículos Relacionados:

cómo cerrar una aplicación java

Apache Spark Vs Hadoop MapReduce