Essays.club - Ensayos gratis, notas de cursos, notas de libros, tareas, monografías y trabajos de investigación
Buscar

IMF Business School - Módulo Infraestructura Big Data

Enviado por   •  15 de Septiembre de 2022  •  Tareas  •  413 Palabras (2 Páginas)  •  68 Visitas

Página 1 de 2

MOD 6 – INFRAESTRUCTURA BIG DATA

APARTADO B

1. Accede a la página minhap.gov y descarga el fichero de deuda ayuntamientos del año 2016

Se ha descargado el archivo indicado: deuda_viva_ayuntamientos_2016__ovel_20170630.xlsx

[pic 1]

El archivo se abrió y se analizó la información. El archivo contiene tres hojas de datos relativos a Deuda Viva (31/12/2016 – Miles €) por municipio

  • Datos: 8125 registros, con columnas:
  • Ejercicio (Ejercicio)
  • Código CC.AA. (cdcdad)
  • CC.AA (nomcdad010)
  • Código Provincia (cdprov)
  • Provincia (nomprov010)
  • Código Municipio (cdcorp)
  • Municipio (nomcorp)
  • Deuda viva 31/12/2016 (ImpDeudViva)
  • Datos_format: Deuda Viva entidades locales - 8124 registros (+1 relativo a “Diferencias de conciliación con el Banco de España), con columnas:
  • Código CC.AA. (cdcdad)
  • Código Provincia (cdprov)
  • Código Municipio (cdcorp)
  • Municipio (nomcorp)
  • Deuda viva 31/12/2016 (ImpDeudViva)
  • Resumen_CCAA_Prov: datos agregados por comunidades autónomas y provincias – 71 registros, con columnas:
  • Codigo CA
  • CC.AA.
  • Codigo Provin
  • Provincia
  • Deuda 31/12/2016 (Miles de €)

2. Indicar el comando de creación de una tabla en Hive que contenga la información de la solapa Datos con las siguientes columnas: Año, Cod_Comunidad, Comunidad, Cod_Provincia, Provincia, Cod_corp, Corporacion, Deuda

En primer lugar, se creó una base de datos ‘mod6apartadob’ para el ejercicio:[pic 2]

[pic 3]

De seguida se creó la tabla ‘datos’:

[pic 4]

3. Cargar el fichero anterior descargado en esa tabla e indicar el comando empleado

Primero, se preparó el archivo descargado para su procesamiento en Hive:

  • Eliminar las 9 primeras líneas para quedarnos con las filas que solo poseen datos para análisis

[pic 5]

  • También eliminar las 3 ultimas líneas

[pic 6]

  • Eliminar el exceso de espacios en blanco en la columna nomcorp (usando la función EXCEL TRIM)
  • Formatee la columna ImpDeudaViva a un número con dos decimales

Finalmente lo guardamos como fichero CSV (UTF-8) – delimitador ‘;’ en la ruta /home/bigdata/MOD6/apartado_b/

Después, en Hive cargar el fichero deuda2016.csv en la tabla deuda_vida:

Use mod6apartadob;

...

Descargar como  txt (2.7 Kb)   pdf (815.5 Kb)   docx (901.6 Kb)  
Leer 1 página más »
Disponible sólo en Essays.club