Bases de datos analíticos
Enviado por Juan Mosquera • 2 de Mayo de 2023 • Tesis • 821 Palabras (4 Páginas) • 193 Visitas
Modulo: Arquitectura y soluciones de Big Data[pic 1]
Estudiante:
Juan Carlos Mosquera
Caso práctico 2
Acceder a la siguiente página web:
https://www.hacienda.gob.es/es-ES/CDI/Paginas/SistemasFinanciacionDeuda/InformacionEELLs/DeudaViva.aspx
Y descargar el fichero de deuda de ayuntamientos del año 2016.
Una vez descargado y abierto para analizar su información, resolver los siguientes ejercicios utilizando Hive:
1. Indicar el comando de creación de una tabla en Hive que contenga la información de la pestaña Datos con las siguientes columnas:
· Anio
· Cod_Comunidad
· Comunidad
· Cod_Provincia
· Provincia
· Cod_corp
· Corporacion
· Deuda
2. Cargar el fichero anterior descargado en esa tabla e indicar el comando empleado.
3. Obtener la corporación que tiene la tercera deuda más grande.
4. Obtener la corporación que tiene la deuda más grande de Andalucía.
5. Obtener la suma de deudas de cada comunidad autónoma, ordenadas por comunidad.
6. Obtener la suma de las deudas de las corporaciones que empiezan por vocal.
7. Exportar las corporaciones cuya deuda sea mayor a 10 000 y pertenezcan a Cataluña, a un fichero llamado “Deudas”, y adjuntarlo. Se puede emplear un comando similar al siguiente:
Final del formulario
[pic 2]
Primero descargamos la base de datos y a cambiar su formato a csv
[pic 3]
Si ya hemos trabajado alguna vez con Apache Hadoop, probablemente nos suene que existe un script para arrancar todos los sistemas; dicho script sigue existiendo y se llama start-all.sh.
Este script se encarga de arrancar todos los componentes/complementos del sistema y por tanto, poner nuestro cluster en funcionamiento.
[pic 4]
Arrancamos “hive” mediante el comando del mismo nombre
[pic 5]
Y creamos una tabla que contenga las columnas solicitadas:
[pic 6]
Depuramos las líneas y las filas que se necesiten para que le formato quede tal cual lo necesitamos
[pic 7]
Procedemos a guardar el documento formateando los importes de deudas eliminando los separadores de miles (tal cual se lo ocupa en la opción de texto en columnas de Microsoft Excel) y seleccionando toda la columna después guardamos como fichero CSV en la ruta /home/bigdata/ejemplosHive, con el nombre “Deuda2020.csv”
...