¿Qué es la ciencia de datos? Una guía para principiantes sobre ciencia de datos



La ciencia de datos es el futuro de la inteligencia artificial. Aprenda qué es la ciencia de datos, cómo puede agregar valor a su negocio y sus diversas fases del ciclo de vida.

A medida que el mundo entró en la era de los macrodatos, también creció la necesidad de su almacenamiento. Fue el principal desafío y preocupación para las industrias empresariales hasta 2010. El enfoque principal fue la creación de un marco y soluciones para almacenar datos. Ahora, cuando Hadoop y otros marcos han resuelto con éxito el problema del almacenamiento, el enfoque se ha desplazado al procesamiento de estos datos. La ciencia de datos es la salsa secreta aquí. Todas las ideas que ves en las películas de ciencia ficción de Hollywood pueden convertirse en realidad gracias a Data Science. La ciencia de datos es el futuro de la inteligencia artificial. Por lo tanto, es muy importante comprender qué es la ciencia de datos y cómo puede agregar valor a su negocio.

¡La Guía de Carreras Técnicas Edureka 2019 ya está disponible! Los puestos de trabajo más destacados, rutas de aprendizaje precisas, perspectivas de la industria y más en la guía. Descargar ahora.

En este blog, cubriré los siguientes temas.





Al final de este blog, podrá comprender qué es la ciencia de datos y su función en la extracción de información significativa de los conjuntos de datos complejos y grandes que nos rodean.Para obtener un conocimiento profundo de la ciencia de datos, puede inscribirse en vivo de Edureka con soporte 24/7 y acceso de por vida.

¿Qué es la ciencia de datos?

La ciencia de datos es una combinación de varias herramientas, algoritmos y principios de aprendizaje automático con el objetivo de descubrir patrones ocultos a partir de los datos sin procesar. Pero, ¿en qué se diferencia esto de lo que han estado haciendo los estadísticos durante años?



La respuesta radica en la diferencia entre explicar y predecir.

Analista de datos frente a ciencia de datos - Edureka

Como puede ver en la imagen de arriba, un analista de datosgeneralmente explica lo que está sucediendo procesando el historial de los datos. Por otro lado, Data Scientist no solo realiza el análisis exploratorio para descubrir información a partir de él, sino que también utiliza varios algoritmos avanzados de aprendizaje automático para identificar la ocurrencia de un evento particular en el futuro. Un científico de datos observará los datos desde muchos ángulos, a veces ángulos desconocidos antes.



Por lo tanto, la ciencia de datos se usa principalmente para tomar decisiones y predicciones haciendo uso de análisis causal predictivo, análisis prescriptivo (predictivo más ciencia de decisiones) y aprendizaje automático.

  • Análisis causal predictivo - Si desea un modelo que pueda predecir las posibilidades de un evento en particular en el futuro, debe aplicar análisis causal predictivo. Digamos que si está proporcionando dinero a crédito, entonces la probabilidad de que los clientes realicen pagos de crédito futuros a tiempo es un motivo de preocupación para usted. Aquí, puede construir un modelo que puede realizar análisis predictivos en el historial de pagos del cliente para predecir si los pagos futuros serán a tiempo o no.
  • Analítica prescriptiva: Si desea un modelo que tenga la inteligencia de tomar sus propias decisiones y la capacidad de modificarlo con parámetros dinámicos, ciertamente necesita análisis prescriptivo para ello. Este campo relativamente nuevo se trata de proporcionar asesoramiento. En otros términos, no solo predice sino que sugiere una variedad de acciones prescritas y resultados asociados.
    El mejor ejemplo de esto es el automóvil autónomo de Google, del que también hablé anteriormente. Los datos recopilados por los vehículos se pueden utilizar para entrenar vehículos autónomos. Puede ejecutar algoritmos sobre estos datos para aportarles inteligencia. Esto permitirá que su automóvil tome decisiones como cuándo girar, qué camino tomar,cuándo reducir la velocidad o acelerar.
  • Aprendizaje automático para hacer predicciones - Si tiene datos transaccionales de una empresa financiera y necesita crear un modelo para determinar la tendencia futura, los algoritmos de aprendizaje automático son la mejor opción. Esto cae bajo el paradigma del aprendizaje supervisado. Se llama supervisado porque ya tiene los datos en base a los cuales puede entrenar sus máquinas. Por ejemplo, un modelo de detección de fraude se puede entrenar utilizando un registro histórico de compras fraudulentas.
  • Aprendizaje automático para el descubrimiento de patrones - Si no tiene los parámetros basados ​​en los cuales puede hacer predicciones, entonces necesita descubrir los patrones ocultos dentro del conjunto de datos para poder hacer predicciones significativas. Esto no es más que el modelo sin supervisión, ya que no tiene etiquetas predefinidas para agrupar. El algoritmo más común utilizado para el descubrimiento de patrones es Clustering.
    Supongamos que trabaja en una empresa telefónica y necesita establecer una red colocando torres en una región. Luego, puede usar la técnica de agrupamiento para encontrar las ubicaciones de las torres que garantizarán que todos los usuarios reciban una intensidad de señal óptima.

Veamos en qué se diferencia la proporción de los enfoques descritos anteriormente para el análisis de datos y la ciencia de datos. Como puede ver en la imagen a continuación, Análisis de datosincluye análisis descriptivo y predicción hasta cierto punto. Por otro lado, la ciencia de datos se trata más de análisis causal predictivo y aprendizaje automático.

Análisis de ciencia de datos - Edureka

Ahora que sabe qué es exactamente la ciencia de datos, averigüemos la razón por la que se necesitaba en primer lugar.

¿Por qué la ciencia de datos?

  • Tradicionalmente, los datos que teníamos eran en su mayoría estructurados y de tamaño pequeño, que podían analizarse utilizando herramientas de BI simples.A diferencia de los datos en elsistemas tradicionales que en su mayoría estaba estructurado, hoy la mayoría de los datos no están estructurados o semiestructurados. Echemos un vistazo a las tendencias de los datos en la imagen que se muestra a continuación, que muestra que para 2020, más del 80% de los datos no estarán estructurados.
    Flujo de datos no estructurados - Edureka
    Estos datos se generan a partir de diferentes fuentes, como registros financieros, archivos de texto, formularios multimedia, sensores e instrumentos. Las herramientas de BI simples no son capaces de procesar este enorme volumen y variedad de datos. Es por eso que necesitamos herramientas y algoritmos analíticos más complejos y avanzados para procesar, analizar y extraer información significativa de ellos.

Esta no es la única razón por la que la ciencia de datos se ha vuelto tan popular. Profundicemos y veamos cómo se utiliza la ciencia de datos en varios dominios.

  • ¿Qué tal si pudiera comprender los requisitos precisos de sus clientes a partir de los datos existentes, como el historial de navegación, el historial de compras, la edad y los ingresos del cliente? Sin duda, también tenía todos estos datos antes, pero ahora con la gran cantidad y variedad de datos, puede entrenar modelos de manera más efectiva y recomendar el producto a sus clientes con más precisión. ¿No sería sorprendente ya que generará más negocios para su organización?
  • Tomemos un escenario diferente para comprender el papel de la ciencia de datos en Toma de decisiones.¿Qué tal si tu coche tuviera la inteligencia para llevarte a casa? Los autos autónomos recopilan datos en vivo de sensores, incluidos radares, cámaras y láseres para crear un mapa de su entorno. Basándose en estos datos, toma decisiones como cuándo acelerar, cuándo reducir, cuándo adelantar, dónde dar un giro, haciendo uso de algoritmos avanzados de aprendizaje automático.
  • Veamos cómo se puede utilizar la ciencia de datos en el análisis predictivo. Tomemos el pronóstico del tiempo como ejemplo. Los datos de barcos, aviones, radares, satélites se pueden recopilar y analizar para construir modelos. Estos modelos no solo pronosticarán el clima, sino que también ayudarán a predecir la ocurrencia de cualquier catástrofe natural. Le ayudará a tomar las medidas adecuadas de antemano y salvar muchas vidas preciosas.

Echemos un vistazo a la siguiente infografía para ver todos los dominios en los que Data Science está creando su impresión.

Casos de uso de ciencia de datos: Edureka

¿Quién es un científico de datos?

Hay varias definiciones disponibles en Data Scientists. En palabras simples, un científico de datos es aquel que practica el arte de la ciencia de datos.El término 'científico de datos' se haacuñado después de considerar el hecho de que un científico de datos extrae mucha información de los campos y aplicaciones científicas, ya sean estadísticas o matemáticas.

¿Qué hace un científico de datos?

Los científicos de datos son aquellos que resuelven problemas complejos de datos con su sólida experiencia en ciertas disciplinas científicas. Trabajan con varios elementos relacionados con las matemáticas, la estadística, la informática, etc. (aunque puede que no sean expertos en todos estos campos).Hacen mucho uso de las últimas tecnologías para encontrar soluciones y llegar a conclusiones que son cruciales para el crecimiento y desarrollo de una organización. Los científicos de datos presentan los datos en una forma mucho más útil en comparación con los datos brutos disponibles para ellos tanto de formas estructuradas como no estructuradas.

Para saber más sobre un científico de datos, puede consultar este artículo en

Avanzando más, hablemos ahora de BI. Estoy seguro de que es posible que también haya oído hablar de Business Intelligence (BI). A menudo, la ciencia de datos se confunde con BI. Voy a enunciar algunos concisos y claroscontrastes entre los dos que le ayudarán a comprender mejor. Echemos un vistazo.

Inteligencia empresarial (BI) frente a ciencia de datos

  • Business Intelligence (BI) básicamente analiza los datos anteriores para encontrar una visión retrospectiva y una visión para describir las tendencias comerciales. Aquí BI le permite tomar datos de fuentes externas e internas, prepararlos, ejecutar consultas y crear paneles para responder preguntas comoanálisis de ingresos trimestraleso problemas comerciales. BI puede evaluar el impacto de ciertos eventos en un futuro próximo.
  • La ciencia de datos es un enfoque más prospectivo, una forma exploratoria que se centra en analizar los datos pasados ​​o actuales y predecir los resultados futuros con el objetivo de tomar decisiones informadas. Responde a las preguntas abiertas sobre 'qué' y 'cómo' ocurren los eventos.

Echemos un vistazo a algunas características contrastantes.

Características Inteligencia empresarial (BI) Ciencia de los datos
Fuentes de datosEstructurado
(Generalmente SQL, a menudo Data Warehouse)
Tanto estructurados como no estructurados

(registros, datos en la nube, SQL, NoSQL, texto)

AcercarseEstadísticas y visualizaciónEstadística, aprendizaje automático, análisis de gráficos, programación neurolingüística (PNL)
AtenciónPasado y presentePresente y futuro
HerramientasPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Todo se trataba de lo que es la ciencia de datos, ahora comprendamos el ciclo de vida de la ciencia de datos.

Un error común que se comete en los proyectos de ciencia de datos es apresurarse en la recopilación y el análisis de datos, sin comprender los requisitos o incluso sin enmarcar correctamente el problema comercial. Por lo tanto, es muy importante que sigas todas las fases a lo largo del ciclo de vida de Data Science para garantizar el buen funcionamiento del proyecto.

Ciclo de vida de la ciencia de datos

A continuación, se ofrece una breve descripción general de las principales fases del ciclo de vida de la ciencia de datos:

Ciclo de vida de la ciencia de datos - Edureka


Descubrimiento de la ciencia de datos - EdurekaFase 1 — Descubrimiento:
Antes de comenzar el proyecto, es importante comprender las diversas especificaciones, requisitos, prioridades y presupuesto requerido. Debe poseer la capacidad de hacer las preguntas correctas.Aquí, evalúa si tiene los recursos necesarios presentes en términos de personas, tecnología, tiempo y datos para apoyar el proyecto.En esta fase, también necesita enmarcar el problema empresarial y formular hipótesis iniciales (IH) para probar.

Preparación de datos de ciencia de datos - Edureka

Fase 2: preparación de datos: En esta fase, necesita un espacio aislado analítico en el que pueda realizar análisis durante toda la duración del proyecto. Necesita explorar, preprocesar y acondicionar los datos antes de modelar. Además, realizará ETLT (extraer, transformar, cargar y transformar) para obtener datos en la caja de arena. Echemos un vistazo al flujo de análisis estadístico a continuación.

Ciclo de vida de la ciencia de datos
Puede utilizar R para la limpieza, transformación y visualización de datos. Esto le ayudará a detectar los valores atípicos y establecer una relación entre las variables.Una vez que haya limpiado y preparado los datos, es hora de hacer una exploraciónanalíticaen eso. Veamos cómo puede lograrlo.

Fase 3: planificación del modelo: Planificación de modelos de ciencia de datos - Edureka Aquí, determinará los métodos y técnicas para dibujar las relaciones entre variables.Estas relaciones establecerán la base para los algoritmos que implementará en la siguiente fase.Aplicará Exploratory Data Analytics (EDA) utilizando varias fórmulas estadísticas y herramientas de visualización.

Echemos un vistazo a varias herramientas de planificación de modelos.

Herramientas de planificación de modelos en ciencia de datos - Edureka

  1. R tiene un conjunto completo de capacidades de modelado y proporciona un buen entorno para construir modelos interpretativos.
  2. Servicios de análisis SQL puede realizar análisis en la base de datos utilizando funciones comunes de minería de datos y modelos predictivos básicos.
  3. SAS / ACCESO se puede utilizar para acceder a datos de Hadoop y se utiliza para crear diagramas de flujo de modelos repetibles y reutilizables.

Aunque, muchas herramientas están presentes en el mercado, pero R es la herramienta más utilizada.

Ahora que tiene conocimientos sobre la naturaleza de sus datos y ha decidido los algoritmos que se utilizarán. En la siguiente etapa,aplicarel algoritmo y construir un modelo.

Construcción de modelos de ciencia de datos - EdurekaFase 4: construcción de modelos: En esta fase, desarrollará conjuntos de datos con fines de capacitación y prueba. Aquí yDebe considerar si sus herramientas existentes serán suficientes para ejecutar los modelos o necesitarán un entorno más robusto (como procesamiento rápido y paralelo). Analizará varias técnicas de aprendizaje como clasificación, asociación y agrupación para construir el modelo.

Puede lograr la construcción de modelos a través de las siguientes herramientas.

Herramientas de creación de modelos en ciencia de datos

clase vs interfaz en java

Fase 5 — Poner en funcionamiento: Data Science operacionalizar - Edureka En esta fase, entrega informes finales, resúmenes, código y documentos técnicos.Además, a veces también se implementa un proyecto piloto en un entorno de producción en tiempo real. Esto le proporcionará una imagen clara del rendimiento y otras limitaciones relacionadas a pequeña escala antes de la implementación completa.


Comunicación en ciencia de datos - EdurekaFase 6: comunicar los resultados:
Ahora es importante evaluar si has podido lograr tu objetivo que tenías planeado en la primera fase. Entonces, en la última fase, identifica todos los hallazgos clave, comunica a las partes interesadas y determina si los resultadosdel proyecto son un éxito o un fracaso según los criterios desarrollados en la Fase 1.

Ahora, tomaré un estudio de caso para explicarle las distintas fases descritas anteriormente.

Estudio de caso: Prevención de la diabetes

¿Y si pudiéramos predecir la aparición de diabetes y tomar las medidas adecuadas de antemano para prevenirla?
En este caso de uso, predeciremos la aparición de diabetes haciendo uso de todo el ciclo de vida que discutimos anteriormente. Repasemos los distintos pasos.

Paso 1:

  • Primero,recopilaremos los datos basados ​​en el historial médicodel paciente como se discutió en la Fase 1. Puede consultar los datos de muestra a continuación.

Datos de muestra de ciencia de datos - Edureka

  • Como puede ver, tenemos los diversos atributos que se mencionan a continuación.

Atributos:

  1. npreg: número de embarazos
  2. glucosa - Concentración de glucosa en plasma
  3. bp - presión arterial
  4. piel: pliegue cutáneo del tríceps
  5. bmi - índice de masa corporal
  6. ped: función del pedigrí de la diabetes
  7. edad - Edad
  8. ingresos - Ingresos

Paso 2:

  • Ahora, una vez que tenemos los datos, necesitamos limpiar y preparar los datos para el análisis de datos.
  • Estos datos tienen muchas inconsistencias como valores perdidos, columnas en blanco, valores abruptos y formato de datos incorrecto que deben limpiarse.
  • Aquí, hemos organizado los datos en una sola tabla con diferentes atributos, lo que la hace parecer más estructurada.
  • Echemos un vistazo a los datos de muestra a continuación.

Datos inconsistentes de ciencia de datos - Edureka

Estos datos tienen muchas inconsistencias.

  1. En la columna npreg , 'Uno' está escrito enpalabras,mientras que debe estar en forma numérica como 1.
  2. En columna bp uno de los valores es 6600 que es imposible (al menos para los humanos) ya que bp no puede alcanzar un valor tan grande.
  3. Como puede ver el Ingresos La columna está en blanco y tampoco tiene sentido para predecir la diabetes. Por lo tanto, es redundante tenerlo aquí y debería eliminarse de la tabla.
  • Por lo tanto, limpiaremos y preprocesaremos estos datos eliminando los valores atípicos, completando los valores nulos y normalizando el tipo de datos. Si recuerda, esta es nuestra segunda fase, que es el preprocesamiento de datos.
  • Finalmente, obtenemos los datos limpios como se muestra a continuación que se pueden usar para el análisis.

Datos consistentes de ciencia de datos - Edureka

Paso 3:

Ahora hagamos un análisis como se discutió anteriormente en la Fase 3.

  • Primero, cargaremos los datos en la caja de arena analítica y le aplicaremos varias funciones estadísticas. Por ejemplo, R tiene funciones como describe que nos da el número de valores perdidos y valores únicos. También podemos usar la función de resumen que nos dará información estadística como valores medios, medianos, rangos, mínimos y máximos.
  • Luego, utilizamos técnicas de visualización como histogramas, gráficos de líneas, diagramas de caja para tener una idea clara de la distribución de los datos.

Visualización de ciencia de datos - Edureka

Etapa 4:

Ahora, según los conocimientos derivados del paso anterior, la mejor opción para este tipo de problema es el árbol de decisiones. ¿Veamos cómo?

  • Dado que, ya tenemos los principales atributos para el análisis como npreg, bmi , etc., así que usaremostécnica de aprendizaje supervisado para construir unmodelo aquí.
  • Además, hemos utilizado particularmente el árbol de decisiones porque toma en consideración todos los atributos de una sola vez, como los que tienen unrelación lineal, así como aquellos que tienen una relación no lineal. En nuestro caso, tenemos una relación lineal entre npreg y años, mientras que la relación no lineal entre npreg y ped .
  • Los modelos de árboles de decisión también son muy robustos, ya que podemos usar las diferentes combinaciones de atributos para hacer varios árboles y finalmente implementar el que tenga la máxima eficiencia.

Echemos un vistazo a nuestro árbol de decisiones.

Conjunto de datos de árbol de diseño

Aquí, el parámetro más importante es el nivel de glucosa, por lo que es nuestro nodo raíz. Ahora, el nodo actual y su valor determinan el siguiente parámetro importante a tomar. Continúa hasta que obtenemos el resultado en términos de pos o neg . Pos significa que la tendencia a tener diabetes es positiva y neg significa que la tendencia a tener diabetes es negativa.

Si desea obtener más información sobre la implementación del árbol de decisiones, consulte este blog.

Paso 5:

En esta fase, ejecutaremos un pequeño proyecto piloto para comprobar si nuestros resultados son adecuados. También buscaremos restricciones de rendimiento, si las hubiera. Si los resultados no son precisos, debemos volver a planificar y reconstruir el modelo.

Paso 6:

Una vez que hayamos ejecutado el proyecto con éxito, compartiremos el resultado para una implementación completa.

Ser un científico de datos es más fácil de decir que de hacer. Entonces, veamos qué es todo lo que necesita para ser un científico de datos.Un científico de datos requiere habilidades básicamentede tres áreas principales como se muestra a continuación.

Habilidades de ciencia de datos - Edureka

Como puede ver en la imagen de arriba, necesita adquirir varias habilidades físicas y habilidades blandas. Tienes que ser bueno en Estadísticas y matemáticas para analizar y visualizar datos. No hace falta decir que, Aprendizaje automático forma el corazón de la ciencia de datos y requiere que seas bueno en eso. Además, debe tener un conocimiento sólido de la dominio está trabajando para comprender claramente los problemas comerciales. Tu tarea no termina aquí. Debería ser capaz de implementar varios algoritmos que requieran buenos codificación habilidades. Finalmente, una vez que haya tomado ciertas decisiones clave, es importante que se las comunique a las partes interesadas. Tan bueno comunicación definitivamente agregará puntos brownie a tus habilidades.

Les insto a que vean este video tutorial de Data Science que explica qué es Data Science y todo lo que hemos discutido en el blog. Adelante, disfruta del video y dime lo que piensas.

¿Qué es la ciencia de datos? Curso de ciencia de datos - Tutorial de ciencia de datos para principiantes | Edureka

Este video del curso de Edureka Data Science lo llevará a través de la necesidad de la ciencia de datos, qué es la ciencia de datos, casos de uso de ciencia de datos para empresas, BI frente a ciencia de datos, herramientas de análisis de datos, ciclo de vida de la ciencia de datos junto con una demostración.

Al final, no estaría mal decir que el futuro pertenece a los científicos de datos. Se prevé que para finales del año 2018 se necesitarán alrededor de un millón de científicos de datos. Cada vez más datos brindarán oportunidades para impulsar decisiones comerciales clave. Pronto cambiará la forma en que vemos el mundo inundado de datos que nos rodean. Por lo tanto, un científico de datos debe estar altamente capacitado y motivado para resolver los problemas más complejos.

Espero que hayas disfrutado leyendo mi blog y hayas entendido qué es la ciencia de datos.Mira nuestro aquí, eso viene con capacitación en vivo dirigida por un instructor y experiencia de proyecto en la vida real.