MongoDB con Hadoop y tecnologías de Big Data relacionadas



MongoDB con Hadoop y las tecnologías de Big Data relacionadas es una combinación poderosa para proporcionar una solución para una situación compleja en análisis.

Las bases de datos relacionales durante mucho tiempo fueron suficientes para manejar conjuntos de datos pequeños o medianos. Pero la velocidad colosal a la que crecen los datos hace que el enfoque tradicional de almacenamiento y recuperación de datos sea inviable. Este problema se está resolviendo con tecnologías más nuevas que pueden manejar Big Data. Hadoop, Hive y Hbase son las plataformas populares para operar este tipo de grandes conjuntos de datos. Las bases de datos NoSQL o Not Only SQL como MongoDB proporcionan un mecanismo para almacenar y recuperar datos en un modelo de consistencia perdedor con ventajas como:

  • Escala horizontal
  • Mayor disponibilidad
  • Acceso mas rapido

El equipo de ingeniería de MongoDB ha actualizado recientemente el conector de MongoDB para Hadoop para tener una mejor integración. Esto hace que sea más fácil para los usuarios de Hadoop:





  • Integre datos en tiempo real de MongoDB con Hadoop para un análisis profundo y sin conexión.
  • El conector expone el poder analítico de MapReduce de Hadoop a los datos de aplicaciones en vivo de MongoDB, generando valor a partir de big data de manera más rápida y eficiente.
  • El conector presenta MongoDB como un sistema de archivos compatible con Hadoop que permite que un trabajo de MapReduce lea desde MongoDB directamente sin copiarlo primero en HDFS (sistema de archivos Hadoop), eliminando así la necesidad de mover Terabytes de datos a través de la red.
  • Los trabajos de MapReduce pueden pasar consultas como filtros, evitando así la necesidad de escanear colecciones enteras, y también pueden aprovechar las ricas capacidades de indexación de MongoDB, que incluyen índices geoespaciales, búsqueda de texto, matrices, compuestos y dispersos.
  • Al leer de MongoDB, los resultados de los trabajos de Hadoop también se pueden volver a escribir en MongoDB, para admitir procesos operativos en tiempo real y consultas ad-hoc.

Casos de uso de Hadoop y MongoDB:

Veamos una descripción de alto nivel de cómo MongoDB y Hadoop pueden encajar en una pila típica de Big Data. Principalmente tenemos:

empresas que utilizan el lenguaje de programación r
  • MongoDB utilizado como Almacén de datos 'operativo' en tiempo real
  • Hadoop para procesamiento y análisis de datos por lotes fuera de línea

Sigue leyendo para saber por qué y cómo MongoDB fue utilizado por empresas y organizaciones como Aadhar, Shutterfly, Metlife y eBay .



Aplicación de MongoDB con Hadoop en agregación por lotes:

En la mayoría de los escenarios, la funcionalidad de agregación incorporada proporcionada por MongoDB es suficiente para analizar datos. Sin embargo, en ciertos casos, puede ser necesaria una agregación de datos significativamente más compleja. Aquí es donde Hadoop puede proporcionar un marco poderoso para análisis complejos.

En este escenario:

  • Los datos se extraen de MongoDB y se procesan dentro de Hadoop a través de uno o más trabajos de MapReduce. Los datos también se pueden obtener de otros lugares dentro de estos trabajos de MapReduce para desarrollar una solución de múltiples fuentes de datos.
  • La salida de estos trabajos de MapReduce se puede volver a escribir en MongoDB para realizar consultas en una etapa posterior y para cualquier análisis ad-hoc.
  • Por lo tanto, las aplicaciones creadas sobre MongoDB pueden usar la información de los análisis por lotes para presentarla al cliente final o para habilitar otras funciones posteriores.

Agregación de Hadoop Mongo DB



Aplicación en almacenamiento de datos:

En una configuración de producción típica, los datos de la aplicación pueden residir en varios almacenes de datos, cada uno con su propio lenguaje de consulta y funcionalidad. Para reducir la complejidad en estos escenarios, Hadoop se puede utilizar como un almacén de datos y actuar como un repositorio centralizado de datos de varias fuentes.

En este tipo de escenario:

  • Los trabajos periódicos de MapReduce cargan datos de MongoDB en Hadoop.
  • Una vez que los datos de MongoDB y otras fuentes están disponibles en Hadoop, se puede consultar el conjunto de datos más grande.
  • Los analistas de datos ahora tienen la opción de usar MapReduce o Pig para crear trabajos que consultan los conjuntos de datos más grandes que incorporan datos de MongoDB.

ordenar números c ++

El equipo que trabaja detrás de MongoDB se ha asegurado de que, con su rica integración con tecnologías de Big Data como Hadoop, sea capaz de integrarse bien en Big Data Stack y ayudar a resolver algunos problemas arquitectónicos complejos cuando se trata de almacenamiento, recuperación, procesamiento, agregación y almacenamiento de datos. . Estén atentos a nuestra próxima publicación sobre perspectivas de carrera para aquellos que toman Hadoop con MongoDB. Si ya está trabajando con Hadoop o simplemente está adquiriendo MongoDB, consulte los cursos que ofrecemos para MongoDB