Tutorial de Big Data: ¡Todo lo que necesita saber sobre Big Data!



Este blog sobre Big Data Tutorial le brinda una descripción completa de Big Data, sus características, aplicaciones y desafíos con Big Data.

Tutorial de Big Data

Big Data, ¿no ha escuchado este término antes? Estoy seguro de que usted tiene. En los últimos 4 a 5 años, todo el mundo habla de Big Data. Pero, ¿realmente sabe qué es exactamente este Big Data, cómo está teniendo un impacto en nuestras vidas y por qué las organizaciones están buscando profesionales con ? En este tutorial de Big Data, le daré una visión completa sobre Big Data.

A continuación se muestran los temas que cubriré en este tutorial de Big Data:





cómo convertirse en ingeniero de inteligencia artificial
  • Historia de Big Data
  • Factores impulsores de Big Data
  • ¿Qué es Big Data?
  • Características de Big Data
  • Tipos de Big Data
  • Ejemplos de Big Data
  • Aplicaciones de Big Data
  • Desafíos con Big Data

Tutorial de Big Data - Edureka

Permítanme comenzar este tutorial de Big Data con una breve historia.



Historia de Big Data

En la antigüedad, la gente solía viajar de un pueblo a otro en un carro tirado por caballos, pero a medida que pasaba el tiempo, los pueblos se convirtieron en pueblos y la gente se dispersó. También aumentó la distancia para viajar de un pueblo a otro. Entonces, se convirtió en un problema viajar entre ciudades, junto con el equipaje. De repente, sugirió un tipo inteligente, deberíamos preparar y alimentar más a un caballo para resolver este problema. Cuando miro esta solución, no es tan mala, pero ¿crees que un caballo puede convertirse en un elefante? No lo creo. Otro tipo inteligente dijo, en lugar de un caballo tirando del carro, tengamos 4 caballos para tirar del mismo carro. ¿Qué piensan ustedes de esta solución? Creo que es una solución fantástica. Ahora, las personas pueden viajar grandes distancias en menos tiempo e incluso llevar más equipaje.

El mismo concepto se aplica a Big Data. Big Data dice que, hasta hoy, estábamos de acuerdo con almacenar los datos en nuestros servidores porque el volumen de datos era bastante limitado y la cantidad de tiempo para procesar estos datos también estaba bien. Pero ahora, en este mundo tecnológico actual, los datos están creciendo demasiado rápido y la gente confía en los datos muchas veces. Además, la velocidad a la que crecen los datos hace que sea imposible almacenar los datos en cualquier servidor.

A través de este blog sobre el tutorial de Big Data, exploremos las fuentes de Big Data, que los sistemas tradicionales no pueden almacenar ni procesar.



Factores impulsores de Big Data

La cantidad de datos en el planeta tierra está creciendo exponencialmente por muchas razones. Varias fuentes y nuestras actividades diarias generan gran cantidad de datos. Con la invención de la web, todo el mundo se ha conectado, cada cosa que hacemos deja un rastro digital. Con los objetos inteligentes en línea, la tasa de crecimiento de datos ha aumentado rápidamente. Las principales fuentes de Big Data son los sitios de redes sociales, redes de sensores, imágenes / videos digitales, teléfonos celulares, registros de transacciones de compra, registros web, registros médicos, archivos, vigilancia militar, comercio electrónico, investigación científica compleja, etc. Toda esta información asciende a unos quintillones de bytes de datos. Para 2020, los volúmenes de datos rondarán los 40 Zettabytes, lo que equivale a sumar cada grano de arena del planeta multiplicado por setenta y cinco.

¿Qué es Big Data?

Big Data es un término que se utiliza para una colección de conjuntos de datos que son grandes y complejos, que son difíciles de almacenar y procesar con las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Características de Big Data

Las cinco características que definen el Big Data son: Volumen, Velocidad, Variedad, Veracidad y Valor.

  1. VOLUMEN

    El volumen se refiere a la 'cantidad de datos', que crece día a día a un ritmo muy rápido. El tamaño de los datos generados por humanos, máquinas y sus interacciones en las propias redes sociales es enorme. Los investigadores han pronosticado que se generarán 40 Zettabytes (40,000 Exabytes) para 2020, lo que representa un aumento de 300 veces desde 2005.

  2. VELOCIDAD

    La velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo. Hay 1.03 mil millones de usuarios activos diarios (DAU de Facebook) en dispositivos móviles a partir de ahora, lo que representa un aumento del 22% año tras año. Esto muestra qué tan rápido está creciendo la cantidad de usuarios en las redes sociales y qué tan rápido se generan los datos a diario. Si puede manejar la velocidad, podrá generar conocimientos y tomar decisiones basadas en datos en tiempo real.

  3. VARIEDAD

    Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado. Por lo tanto, existe una variedad de datos que se generan todos los días. Anteriormente, solíamos obtener los datos de Excel y bases de datos, ahora los datos vienen en forma de imágenes, audios, videos, datos de sensores, etc., como se muestra en la siguiente imagen. Por lo tanto, esta variedad de datos no estructurados crea problemas en la captura, almacenamiento, extracción y análisis de datos.

  4. VERACIDAD

    La veracidad se refiere a los datos en duda o la incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos. En la siguiente imagen, puede ver que faltan algunos valores en la tabla. Además, algunos valores son difíciles de aceptar, por ejemplo, el valor mínimo de 15000 en la tercera fila no es posible. Esta inconsistencia e incompletitud es Veracidad.
    Los datos disponibles a veces pueden ser confusos y quizás difíciles de confiar. Con muchas formas de big data, la calidad y la precisión son difíciles de controlar, como las publicaciones de Twitter con hashtags, abreviaturas, errores tipográficos y discursos coloquiales. El volumen es a menudo el motivo de la falta de calidad y precisión de los datos.

    • Debido a la incertidumbre de los datos, 1 de cada 3 líderes empresariales no confía en la información que utilizan para tomar decisiones.
    • En una encuesta se descubrió que el 27% de los encuestados no estaban seguros de la cantidad de datos que eran inexactos.
    • La mala calidad de los datos le cuesta a la economía estadounidense alrededor de 3,1 billones de dólares al año.
  5. VALOR

    Después de analizar el volumen, la velocidad, la variedad y la veracidad, hay otra V que debe tenerse en cuenta al analizar Big Data, es decir, el valor. Está muy bien tener acceso a grandesdatosperoa menos que podamos convertirlo en valor, es inútil. Al convertirlo en valor, quiero decir, ¿se suma a los beneficios de las organizaciones que analizan big data? ¿La organización que trabaja en Big Data está logrando un alto ROI (retorno de la inversión)? A menos que aumente sus ganancias trabajando en Big Data, es inútil.

Vea nuestro video de Big Data a continuación para saber más sobre Big Data:

Tutorial de Big Data para principiantes | ¿Qué es Big Data? Edureka

Como se discutió en Variety, hay diferentes tipos de datos que se generan todos los días. Entonces, entendamos ahora los tipos de datos:

Tipos de Big Data

Big Data puede ser de tres tipos:

  • Estructurado
  • Semi-estructurado
  • No estructurado

  1. Estructurado

    Los datos que pueden almacenarse y procesarse en un formato fijo se denominan datos estructurados. Los datos almacenados en un sistema de gestión de bases de datos relacionales (RDBMS) son un ejemplo de datos 'estructurados'. Es fácil procesar datos estructurados ya que tiene un esquema fijo. El lenguaje de consulta estructurado (SQL) se utiliza a menudo para gestionar este tipo de datos.

  2. Semi-estructurado

    Los datos semiestructurados son un tipo de datos que no tiene una estructura formal de un modelo de datos, es decir, una definición de tabla en un DBMS relacional, pero sin embargo tiene algunas propiedades organizativas como etiquetas y otros marcadores para separar elementos semánticos que lo hacen más fácil. analizar. Los archivos XML o los documentos JSON son ejemplos de datos semiestructurados.

  3. No estructurado

    Los datos que tienen una forma desconocida y no se pueden almacenar en RDBMS y no se pueden analizar a menos que se transformen en un formato estructurado se denominan datos no estructurados. Los archivos de texto y los contenidos multimedia como imágenes, audios, videos son ejemplos de datos no estructurados. Los datos no estructurados están creciendo más rápido que otros, los expertos dicen que el 80 por ciento de los datos en una organización no están estructurados.

Hasta ahora, acabo de cubrir la introducción de Big Data. Además, este tutorial de Big Data habla de ejemplos, aplicaciones y desafíos en Big Data.

Ejemplos de Big Data

Diariamente cargamos millones de bytes de datos. El 90% de los datos mundiales se han creado en los últimos dos años.

  • Walmart maneja más de 1 millón transacciones de clientes cada hora.
  • Facebook almacena, accede y analiza 30+ Petabytes de datos generados por el usuario.
  • 230+ millones de tweets se crean todos los días.
  • Más que 5 billones la gente llama, envía mensajes de texto, tuitea y navega en teléfonos móviles en todo el mundo.
  • Los usuarios de YouTube suben 48 horas de video nuevo cada minuto del día.
  • Mangos de Amazon 15 millones el cliente hace clic en transmitir datos de usuario por día para recomendar productos.
  • 294 mil millones Los correos electrónicos se envían todos los días. Servicios analiza estos datos para encontrar los mensajes no deseados.
  • Los coches modernos tienen cerca de 100 sensores que monitorea el nivel de combustible, la presión de los neumáticos, etc., cada vehículo genera una gran cantidad de datos de sensores.

Aplicaciones de Big Data

No podemos hablar de datos sin hablar de las personas, las personas que se benefician de las aplicaciones de Big Data. Casi todas las industrias actuales aprovechan las aplicaciones de Big Data de una forma u otra.

  • Atención sanitaria más inteligente : Haciendo uso de los petabytes de los datos del paciente, la organización puede extraer información significativa y luego crear aplicaciones que puedan predecir el estado de deterioro del paciente por adelantado.
  • Telecom : El sector de las telecomunicaciones recopila información, la analiza y brinda soluciones a diferentes problemas. Mediante el uso de aplicaciones de Big Data, las empresas de telecomunicaciones han podido reducir significativamente la pérdida de paquetes de datos, que ocurre cuando las redes están sobrecargadas y, por lo tanto, proporcionar una conexión perfecta con sus clientes.
  • Al por menor : El comercio minorista tiene algunos de los márgenes más estrechos y es uno de los mayores beneficiarios del big data. La belleza de usar big data en el comercio minorista es comprender el comportamiento del consumidor. El motor de recomendaciones de Amazon ofrece sugerencias basadas en el historial de navegación del consumidor.
  • Control de trafico : La congestión del tráfico es un desafío importante para muchas ciudades a nivel mundial. El uso eficaz de datos y sensores será clave para gestionar mejor el tráfico a medida que las ciudades se vuelven cada vez más densamente pobladas.
  • Fabricación : El análisis de big data en la industria manufacturera puede reducir los defectos de los componentes, mejorar la calidad del producto, aumentar la eficiencia y ahorrar tiempo y dinero.
  • Calidad de búsqueda : Cada vez que extraemos información de Google, simultáneamente generamos datos para ella. Google almacena estos datos y los usa para mejorar su calidad de búsqueda.

Alguien ha dicho con razón: '¡No todo en el jardín es rosado!' . Hasta ahora, en este tutorial de Big Data, acabo de mostrarles la imagen optimista de Big Data. Pero si fuera tan fácil aprovechar Big Data, ¿no cree que todas las organizaciones invertirían en él? Déjame decirte por adelantado que ese no es el caso. Hay varios desafíos que surgen cuando se trabaja con Big Data.

Ahora que está familiarizado con Big Data y sus diversas características, la siguiente sección de este blog sobre el tutorial de Big Data arrojará algo de luz sobre algunos de los principales desafíos que enfrenta el Big Data.

Desafíos con Big Data

Déjame contarte algunos desafíos que acompañan al Big Data:

  1. Calidad de los datos - El problema aquí es el 4thV, es decir, veracidad. Los datos aquí son muy desordenados, inconsistentes e incompletos. Los datos sucios cuestan $ 600 mil millones a las empresas cada año en los Estados Unidos.
  1. Descubrimiento - Encontrar información sobre Big Data es como encontrar una aguja en un pajar. Analizar petabytes de datos utilizando algoritmos extremadamente poderosos para encontrar patrones y conocimientos es muy difícil.
  1. Almacenamiento - Cuantos más datos tenga una organización, más complejos pueden volverse los problemas de gestión. La pregunta que surge aquí es “¿Dónde almacenarlo?”. Necesitamos un sistema de almacenamiento que se pueda ampliar o reducir fácilmente a pedido.
  1. Analítica - En el caso de Big Data, la mayoría de las veces desconocemos el tipo de datos que estamos tratando, por lo que analizar esos datos es aún más difícil.
  1. Seguridad - Dado que los datos tienen un tamaño enorme, mantenerlos seguros es otro desafío. Incluye autenticación de usuario, restricción de acceso basado en un usuario, registro de historiales de acceso a datos, uso adecuado del cifrado de datos, etc.
  1. Falta de talento - Hay muchos proyectos de Big Data en organizaciones importantes, pero un equipo sofisticado de desarrolladores, científicos de datos y analistas que también tienen suficiente conocimiento de dominio sigue siendo un desafío.

Hadoop al rescate

Tenemos un salvador para hacer frente a los desafíos de Big Data: es Hadoop . Hadoop es un marco de programación de código abierto basado en Java que admite el almacenamiento y procesamiento de conjuntos de datos extremadamente grandes en un entorno informático distribuido. Es parte del proyecto Apache patrocinado por Apache Software Foundation.

Hadoop con su procesamiento distribuido, maneja grandes volúmenes de datos estructurados y no estructurados de manera más eficiente que el almacén de datos empresarial tradicional. Hadoop hace posible ejecutar aplicaciones en sistemas con miles de nodos de hardware básico y manejar miles de terabytes de datos. Las organizaciones están adoptando Hadoop porque es un software de código abierto y puede ejecutarse en hardware básico (su computadora personal).Los ahorros de costos iniciales son dramáticos ya que el hardware básico es muy barato. A medida que aumentan los datos de la organización, debe agregar más y más hardware básico sobre la marcha para almacenarlos y, por lo tanto, Hadoop demuestra ser económico.Además, Hadoop tiene una sólida comunidad de Apache detrás que continúa contribuyendo a su avance.

Como prometí anteriormente, a través de este blog sobre Big Data Tutorial, le he brindado la máxima información sobre Big Data. Este es el final del tutorial de Big Data. Ahora, el siguiente paso es conocer y aprender Hadoop. Tenemos una serie de tutoriales de Hadoop blogs que darán un conocimiento detallado del ecosistema completo de Hadoop.

¡Todo lo mejor, Happy Hadooping!

Ahora que ha entendido qué es Big Data, consulte el por Edureka, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Edureka Big Data Hadoop ayuda a los alumnos a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de Retail, Social Media, Aviación, Turismo, Finanzas.

Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos pondremos en contacto con usted.

Artículos Relacionados:

system.exit (1) java