Laboratorio #4, Minería de datos.
Enviado por Helena • 19 de Abril de 2018 • 920 Palabras (4 Páginas) • 423 Visitas
...
[pic 12]
---------------------------------------------------------------
Modelo #2.
A continuación, se presenta por medio de capturas de pantalla el modo en el que ha sido creado el segundo modelo del ejercicio número dos. En la primera imagen se observa cómo se realiza la lectura de los datos por medio del “Read CSV” y se agrega la opción de “validation” para ejecutar el algoritmo y en la segunda imagen se observa como dentro del “validation” se dividen los datos en los conjuntos “training” y “testing”.
[pic 13]
[pic 14]
Tipo de problema
Descriptivo.
Tarea de minería.
Clustering.
Técnica utilizada para plantear el modelo.
Redes neuronales
Descripción del modelo generado.
En este caso se puede apreciar al lado izquierdo del modelo las entradas, que representan cada uno de los diferentes tipos de productos en los cuales los clientes gastan, la columna del centro representa una capa oculta que es la que se encarga de agrupar los datos en lo que se aprecia en la tercera columna lo que representa cada uno de los clusters.
[pic 15]
Matriz de confusión
La siguiente matriz permite la visualización de cómo se desempeña el algoritmo de redes neuronales utilizado. En este caso cada una de las columnas de la matriz representa el número de predicciones para cada región y las filas representan las instancias reales.
Como se puede apreciar según el dato real que 131 clientes gastaron comprando productos en la región Otra, sin embargo, el sistema predijo que 20 gastaron comprando en Lisboa, 13 en Oporto y 98 en otro, por lo tanto, su precisión es de 74.81%. También se puede apreciar que el dato real dice que una persona gato en oporto, sin embargo, el sistema predice que compra en Otra, lo que produce un 0% de precisión, al igual que en la primera fila ya que en Lisboa nadie hace gastos.
[pic 16]
Comparación de los resultados de ambos modelos.
Como se puede observar en las capturas de pantalla de las matrices de confusión la cantidad total de ítems de ambos modelos es distinta, en el modelo de “K-means” la cantidad total de ítems es 440 y en el modelo de redes neuronales es 132, ¿a qué se debe esto? Se debe a que en el modelo de redes neuronales filtra los datos, por lo tanto, elimina los datos que se encuentren vacíos.
Para nuestro grupo el mejor modelo es el de “K-means”, ya que presenta los datos de una manera más clara y legible, por lo tanto, permite una interpretación mas sencilla de los resultados.
...