Importancia de la ciencia de datos con Cassandra



Cassandra es una base de datos de código abierto para manejar grandes cantidades de datos en muchos servidores, por lo que la demanda de científicos de datos con conocimientos de cassandra es alta.

'

La rápida expansión de datos digitales a través de computadoras, dispositivos móviles, video, redes sociales, sensores digitales, etc., combinada con importantes avances en potencia de procesamiento de bajo costo, aplicaciones de bases de datos de código abierto y un ancho de banda más amplio, ha despertado un interés masivo en todo el mundo empresarial en campo emergente de la ciencia de Big Data y analítica.





Los macrodatos en grandes volúmenes no estructurados son demasiado grandes para ser gestionados y analizados mediante métodos tradicionales. La gran cantidad y velocidad de los datos actuales hace que capturar, filtrar, almacenar y analizar sea un verdadero desafío. Con regularidad se desarrollan nuevos productos para hacer frente a esto, lo que requiere nuevos conjuntos de habilidades y experiencia. Existe una creciente necesidad de personas que puedan integrar nueva infraestructura, plataformas y procesos en la organización, así como de aquellos que puedan crear nuevos análisis y algoritmos capaces de crear una enorme inteligencia de gran valor comercial. Para obtener más información, lea nuestra publicación de blog en

Relevancia de la ciencia de datos en diferentes industrias:

Data Science & Analytics tiene aplicación en todas las industrias:



  • comercio electronico - Motores de personalización y recomendación que aumentan las ventas.
  • Publicidad - Entrega de anuncios a los consumidores en tiempo real y altamente orientados.
  • Medios y entretenimiento - Desarrollo de contenido personalizado que maximiza la participación del usuario.
  • Social Media - Mayor 'rigidez' del sitio, crecimiento de usuarios, capacidad para rastrear tendencias de última hora basadas en los sentimientos de los consumidores.
  • Servicios financieros –Prácticas de préstamos optimizadas que minimizan el riesgo y el fraude.
  • Farmacéutica / Bioinformática - Mejor descubrimiento de fármacos, tratamientos más eficaces de enfermedades amenazadoras, mejoras en la ingeniería genética.
  • Cuidado de la salud - Mejor puntuación de los pacientes médicos por riesgos para la salud, así como por anticipación y prevención temprana de enfermedades.
  • Energía electrica - Inteligencia de red inteligente, eficiencia de uso, ahorro de energía y reducción del tiempo de inactividad.
  • Seguridad de información - Detección y supervisión de robos enormemente mejorada de valiosa información y activos de la empresa.

Habilidades clave de los profesionales de la ciencia de datos:

El dominio de la ciencia de datos requiere profesionales que:

  • Comprende el análisis de datos y la ciencia de decisiones
  • Están bien versados ​​en TI
  • Tener una gran perspicacia para los negocios
  • Poseer la capacidad de comunicarse de manera efectiva con los tomadores de decisiones.

Lee mas: Habilidades básicas necesarias para ser un científico de datos.

Tecnologías comunes asociadas con la práctica de la ciencia de datos:

Tecnologías asociadas con la ciencia de datos



interfaz de marcador en el ejemplo de java
  • Bases de datos

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Idiomas

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Colmena, Cerdo, Lucene, Mahout, Solr

  • Estadísticas y pronósticos

Angoss, MATLAB, R, SAS, SPSS

ARCO, GARCH, SVAR, VAR, VEC, GAUSS

  • Visualización de datos

QlikView, Spotfire, Tableau, yWorks, R

  • BI e informes

BusinessObjects, Cognos, MicroStrategy

¿Qué es Cassandra?

  • Apache Cassandra es un sistema de administración de bases de datos distribuidas de código abierto diseñado para manejar grandes cantidades de datos en muchos servidores básicos.
  • Cassandra proporciona alta disponibilidad sin un solo punto de falla.
  • Cassandra ofrece un soporte sólido para clústeres que abarcan múltiples centros de datos, con replicación asincrónica sin maestro que permite operaciones de baja latencia para todos los clientes.

Para obtener más información, lea nuestra publicación de blog en el .

anulación vs sobrecarga en java

¿Cómo utiliza la ciencia de datos a Cassandra?

Cassandra es & shy & shy una base de datos distribuida para servicios de baja latencia y alto rendimiento que manejan cargas de trabajo en tiempo real que incluyen cientos de actualizaciones por segundo y decenas de miles de lecturas por segundo.

Casandra Caso de uso - PROS:

PROS es una empresa de software de Big Data con análisis prescriptivo en su software que facilita a sus clientes analizar sus datos y obtener información y orientación para optimizar su gestión de precios, ventas e ingresos.

Tienen un servicio en tiempo real que calcula la disponibilidad de la aerolínea, teniendo en cuenta dinámicamente los datos de control de ingresos y los niveles de inventario que pueden cambiar cientos de veces por segundo.

Este servicio se consulta varios miles de veces por segundo, lo que se traduce en decenas de miles de búsquedas de datos. Su capa de almacenamiento de backend para este servicio es Cassandra.

Para su solución en tiempo real, PROS se dio cuenta de la necesidad de:

  • Una caché distribuida de alta disponibilidad.
  • Fácilmente escalable.
  • Con una arquitectura sin maestro.
  • Con replicación de datos casi en tiempo real incluso en centros de datos.
  • Eso puede manejar lecturas y escrituras en tiempo real.

PROS evaluó a Cassandra frente a Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort y Redis. Apache Cassandra encabezó fácilmente la lista.

PROS y Cassandra

  • PROS utiliza Cassandra como una base de datos distribuida para servicios de baja latencia y alto rendimiento que manejan cargas de trabajo en tiempo real que comprenden cientos de actualizaciones por segundo y decenas de miles de lecturas por segundo.
  • Por ejemplo, tienen un servicio en tiempo real que calcula la disponibilidad de la aerolínea de forma dinámica, teniendo en cuenta los datos de control de ingresos y los niveles de inventario que pueden cambiar cientos de veces por segundo. Este servicio se consulta varios miles de veces por segundo, lo que se traduce en decenas de miles de búsquedas de datos. Su capa de almacenamiento de backend para este servicio es Cassandra. Algunas de sus ofertas de SaaS utilizan Cassandra como la tienda de backend para manejar una combinación de cargas de trabajo por lotes en tiempo real y basadas en Hadoop.
  • Hablando de Hadoop y Cassandra, sacan los datos de Cassandra y los ponen en Hadoop y ejecutan lotes y análisis sobre eso, y luego eso vuelve a Cassandra. Esto se logra mediante la integración de Hadoop de Cassandra.
  • Los trabajos de Hadoop extraen datos de Cassandra, aplican transformaciones o análisis específicos del trabajo y devuelven los datos a Cassandra. No están usando la edición Enterprise de Datastax (oficial Cassandra Maintainer) para esta integración, solo la instalación de código abierto de Hadoop con Cassandra.

Modelado de datos con Cassandra:

Cuando se busca reemplazar un almacén de valor clave con algo más capaz de replicación en tiempo real y distribución de datos, la investigación sobre Dynamo, el teorema CAP y el modelo de consistencia eventual muestra que Cassandra encaja bastante bien en este modelo. A medida que uno aprende más sobre las capacidades de modelado de datos, avanzamos gradualmente hacia la descomposición de datos.

Si uno proviene de una base de datos relacional con una semántica ACID sólida, entonces debe tomarse el tiempo para comprender el modelo de consistencia eventual.

Comprenda muy bien la arquitectura de Cassandra y lo que hace bajo el capó. Con Cassandra 2.0 obtiene transacciones y activadores ligeros, pero no son los mismos que las transacciones de bases de datos tradicionales con las que uno está familiarizado. Por ejemplo, no hay restricciones de clave externa disponibles; debe ser manejada por la propia aplicación. Es imprescindible comprender claramente los casos de uso y los patrones de acceso a los datos antes de modelar datos con Cassandra y leer toda la documentación disponible.

Conclusión:

Apache Cassandra está evolucionando rápidamente y estamos aprendiendo y comprendiendo sus capacidades, especialmente en el lado del modelado de datos. Lo vemos como una base de datos distribuida NoSQL de elección para nuestros servicios y soluciones de Big Data.

Edureka proporciona una completa para aquellos que deseen convertirse en científicos de datos. El curso cubre una variedad de técnicas de Hadoop, R y Machine Learning que abarcan el estudio completo de Data Science. Edureka también ofrece que le ayuda a dominar las bases de datos NoSQL. Este curso está diseñado para proporcionar conocimientos y habilidades para convertirse en un experto de Cassandra exitoso.