4 formas de usar R y Hadoop juntos



R y Hadoop se complementan bastante bien en términos de visualización y análisis de big data. Esta publicación de blog habla de 4 formas de usarlos juntos.

Hadoop es un marco de programación disruptivo basado en Java que admite el procesamiento de grandes conjuntos de datos en un entorno informático distribuido, mientras que R es un lenguaje de programación y un entorno de software para gráficos y computación estadística. El lenguaje R se usa ampliamente entre estadísticos y mineros de datos para desarrollar software estadístico y realizar análisis de datos. En las áreas de análisis de datos interactivos, estadísticas de propósito general y modelos predictivos, R ha ganado una popularidad masiva debido a sus capacidades de clasificación, agrupamiento y clasificación.

KM





Hadoop y R se complementan bastante bien en términos de visualización y análisis de big data.

Usando R y Hadoop

Hay cuatro formas diferentes de usar Hadoop y R juntos:



1. RHadoop

RHadoop es una colección de tres paquetes de R: rmr, rhdfs y rhbase. El paquete rmr proporciona la funcionalidad Hadoop MapReduce en R, rhdfs proporciona la gestión de archivos HDFS en R y rhbase proporciona la gestión de la base de datos HBase desde dentro de R. Cada uno de estos paquetes primarios se puede utilizar para analizar y gestionar mejor los datos del marco de Hadoop.

cómo hacer un jframe en java

2. ORCH



ORCH son las siglas de Oracle R Connector para Hadoop. Es una colección de paquetes R que proporcionan las interfaces relevantes para trabajar con tablas de Hive, la infraestructura informática de Apache Hadoop, el entorno R local y las tablas de base de datos de Oracle. Además, ORCH también proporciona técnicas de análisis predictivo que se pueden aplicar a los datos en archivos HDFS.

3. RHIPE

RHIPE es un paquete R que proporciona una API para usar Hadoop. RHIPE son las siglas de R y Hadoop Integrated Programming Environment, y es esencialmente RHadoop con una API diferente.

4. Transmisión de Hadoop

Hadoop Streaming es una utilidad que permite a los usuarios crear y ejecutar trabajos con cualquier ejecutable como mapeador y / o reductor. Usando el sistema de transmisión, uno puede desarrollar trabajos de trabajo Hadoop con el conocimiento suficiente de Java para escribir dos scripts de shell que funcionen en conjunto.

La combinación de R y Hadoop está emergiendo como un conjunto de herramientas imprescindible para las personas que trabajan con estadísticas y grandes conjuntos de datos. Sin embargo, ciertos entusiastas de Hadoop han levantado una bandera roja al lidiar con fragmentos de Big Data extremadamente grandes. Afirman que la ventaja de R no es su sintaxis, sino la biblioteca exhaustiva de primitivas para visualización y estadísticas. Estas bibliotecas son fundamentalmente no distribuidas, lo que hace que la recuperación de datos sea un asunto que requiere mucho tiempo. Este es un defecto inherente a R, y si decide pasarlo por alto, R y Hadoop en conjunto pueden hacer maravillas.

Ahora, veamos una demostración:

ec2 crea una instancia a partir de una instantánea

que es serializar en java

Tienes una pregunta para nosotros? Por favor, menciónelos en la sección de comentarios y nos comunicaremos con usted.

Artículos Relacionados: