Hive es un sistema de almacenamiento de datos para Hadoop que facilita el resumen de datos, las consultas ad-hoc y el análisis de grandes conjuntos de datos almacenados en sistemas de archivos compatibles con Hadoop. Hive estructura los datos en conceptos de base de datos bien entendidos, como tablas, filas, columnas y particiones. Admite tipos primitivos como enteros, flotantes, dobles y cadenas. Hive también admite matrices asociativas, listas, estructuras y serialización y la API deserializada se utiliza para mover datos dentro y fuera de las tablas.
Veamos los modelos de datos de Hive en detalle
Modelos de datos de Hive:
Los modelos de datos de Hive contienen los siguientes componentes:
¿Qué es la función virtual en Java?
- Bases de datos
- Mesas
- Particiones
- Baldes o grupos
Particiones:
Partición significa dividir una tabla en partes de grano grueso basado en el valor de una columna de partición como 'datos'. Esto agiliza la realización de consultas en segmentos de datos.
Entonces, ¿cuál es la función de la partición? Las claves de partición determinan cómo se almacenan los datos. Aquí, cada valor único de la clave de partición define una partición de la tabla. Las particiones tienen nombres de fechas para mayor comodidad. Es similar a 'División de bloques' en HDFS.
que es el espacio de nombres en c ++
Cubos:
Los depósitos brindan una estructura adicional a los datos que pueden usarse para consultas eficientes. Una combinación de dos tablas agrupadas en las mismas columnas, incluida la columna de combinación, se puede implementar como una combinación del lado del mapa. El agrupamiento por ID usado significa que podemos evaluar rápidamente una consulta basada en el usuario ejecutándola en una muestra aleatoria del conjunto total de usuarios.
que es un bean java
Tienes una pregunta para nosotros? Por favor, menciónelos en la sección de comentarios y nos comunicaremos con usted.
Artículos Relacionados: