Inteligencia de Negocio y Visualización
Enviado por alop.1974 • 12 de Julio de 2022 • Práctica o problema • 2.219 Palabras (9 Páginas) • 512 Visitas
Caso - Inteligencia de Negocio y Visualización
Enunciado
El departamento antifraude de una compañía de Mystery Shopping desea hacer un seguimiento y analizar la información relativa a las encuestas que realiza en los distintos centros de sus clientes. Para ello, el cliente solicita:
- Un análisis y diseño del Data Warehouse que daría respuesta a los usuarios analíticos del departamento antifraude, suponiendo que los usuarios aún no tienen claro el tipo de análisis que quieren realizar.
- Partiendo del análisis y diseño previo realizado y usando Pentaho Data Integration, se debe realizar la implementación del proceso ETL con el objetivo de:
- Identificar y extraer los datos de las fuentes.
- Procesar los datos y aplicar procesos de limpieza y calidad del dato.
- Generar y cargar los datos en el modelo físico de estrella identificado en la fase de diseño.
- Posteriormente, partiendo del análisis y diseño previo realizado y conociendo ya la tecnología seleccionada, en este caso Pentaho Business Analytics, ha de realizarse una implementación ágil del modelo multidimensional.
El objetivo en este caso es la implementación del modelo multidimensional sobre diseño del Data Warehouse
que daría respuesta a los usuarios analíticos del departamento antifraude, suponiendo que los usuarios aún no
tienen claro el tipo de análisis que quieren realizar.
Para la realización de este ejercicio práctico se partirá de los datos de Mystery Shopping “IMF_M5_Mystery_Shopping.csv ”
1.- Análisis de fuentes:
Descripción global de las fuentes.
Como única fuente contamos con un fichero, con formato CSV, que contiene un histórico de transacciones de las auditorias que se les realiza a los clientes de la compañia de Mystery Shopping. Cada registro contiene una auditoria, que se realiza en una fecha, que consta de un cuestionario, realizada en una ubicación por un evaluador.
[pic 1]
Descripción en detalle de cada campo.
- La ubicación tiene como atributos los campos - Provincia, población, CP y Nombre_loc.
- Nombre_loc contiene una descripción del local que se va auditar haciendo en algunas ocasiones referencia al nombre del cliente,el uso del local, la población o una combinación de los anteriores.
- El nombre de lo otros campos hace una referencia clara a su contenido.
Comentarios -
- El campo provincia cuando se ha auditado en el extranjero se rellena con - EXTRANJERO.
- El CP de las auditorias en el extranjero no se rellena.
- La Población en las auditorias en el extranjero a veces se rellena con el país y otras con la población.
- La población en algunos casos se rellena con el contenido de Nombre_loc.
- En lineas generales no se observa una consistencia en la información contenida en estos campos, no hay unos formatos y reglas definidas a l hora de generar l información.
Incidecias a corregir -
- CP - 25 códigos postales nacionales no vienen informados
- Población - 88 registros nacionales sin informar (vacíos o con ---)
[pic 2]
- El cuestionario tiene como atributos los campos - COD_PROY, TITULO_CUESTIONARIO, ID_EVALUACION y RESULTADO
- COD_PROY - Código del proyecto, va alineado con un cliente específico que se suele incluir en el campo TITULO_CUESTIONARIO.
- TITULO_CUESTIONARIO - Incluye una referencia al cliente y en algunas ocasiones una referencia a un elemento concreto del cliente a auditar.
- ID_EVALUACION - Es un indicador correlativo del número de la auditoria/registro.
- RESULTADO - Puntuación entre 0 y 1 obtenida en la auditoria.
Comentarios -
- El código de proyecto se podría descomponer en dos campos si se quisiera una mayor profundidad en el análisis.
- Habría que clarificar si es significativo que un resultado sea 0 (es posible, claro, pero representaría un fallo total a analizar por negocio, ¿el cuestionario es adecuado?, ¿que causas hay?)
[pic 3]
- El Evaluador tiene como atributos lo campos - OFICINA y COD_AUDITOR
- OFICINA - Oficina de la compañía de la que depende el evaluador
- COD_AUDITOR - Cada evaluador cuenta con un código único.
[pic 4]
- La fecha de auditoria cuenta únicamente con campo Fecha de ejecución como atributo, indica la fecha en la que se realizó la auditaría en formato DD/MM/AAAA.
- Comentarios:
- El histórico de transacciones que tenemos como entrada esta prácticamente focalizado en el 2014 (enero a Junio y una fecha errónea marcada en diciembre - Cuestionario Comp. Seat Ibiza ITECH 1º Trim 2014), contando con una única transacción del 1995 y 18 de2013. Dado el contenido habría que considerar con negocio la introducción de estos datos atípicos o evaluar el proceso de extracción actual que prepara el fichero. Principalmente podría ser el histórico del primer semestre de 2014.
- Incidencia:
- Se ha detectado una fecha en blanco, habrá que introducir una validación para rechazar registros similares y que se completen en un proceso posterior.
[pic 5]
2.- Análisis funcional y diagrama de arquitectura de flujo de datos.
El objetivo es diseñar un proceso de extracción, transformación y carga
Masterimf
[pic 6]
Por no complicar el diagrama de arquitectura de flujo de datos aportamos un mayor detalle a nivel funcional a continuación:
- Extraer fuentes -
- Tenemos constancia del formato de las fuente de datos, un fichero de transacciones en formato CSV. Para la realización del ejercicio se cargará el fichero de forma local en la máquina virtual.
- Cargaremos el fichero en una tabla de staging.
- Se realizara una validación sobre la existencia del fichero en la ubicación seleccionada, en caso de no existir, daremos la extracción como no correcta y se notificara en un log de errores y se terminará el proceso.
- Transformar -
- Dado la heterogeneidad de los datos existente en la mayoría de los campos, lo único que podremos hacer es incorporar los CP nacionales vacíos y retirar los registros con errores - falta de fecha de ejecución y población - Los registros erróneos se guardaran en formato CSV para su posterior corrección y tratamiento.
- Descompondremos la fecha de ejecución en cuatro nuevos campos- año, mes ,día y semana - que nos facilitará su posterior tratamiento en la carga.
- Se cargaran las transformaciones en una nueva tabla.
- Se realizara una validación sobre la carga en la nueva tabla si presenta fallos daremos el proceso de transformación como no correcto, se notificara en un log de errores y se terminará el proceso.
- Carga -
- Se procederá a la carga de las tablas que conformaran el DW, Tanto la arquitectura como los modelos se comentarán el los próximos epígrafes.
- Se realizara una validación sobre la carga en las nuevas tablas si presenta fallos daremos el proceso de carga como no correcto, se notificara en un log de errores y se terminará el proceso.
- - ¿Qué arquitectura de referencia usaría? Justifique la respuesta.
Dada la fuente de datos y que no se presenta la necesidad de un análisis a tiempo real de las transacciones de auditoría, usaremos un sistema de inteligencia de negocio tradicional donde se pueden diferenciar tres capas separadas: capa de presentación, capa de aplicación y capa de base de datos.
...