En el presente trabajo se plantea hacer uso de distintas herramientas utilizadas a lo largo del curso como son los modelos de árboles de decisión, regresión logística y red neuronal
Enviado por Kate • 27 de Septiembre de 2018 • 821 Palabras (4 Páginas) • 462 Visitas
...
Tabla de clasificación errónea [pic 11]
[pic 12]
[pic 13]
Para la tasa de clasificación errónea obtuvimos como resultado 0.423 en el set de entrenamiento, lo que nos indica que el modelo predice de forma errónea 42.3% de las veces.
Red Neuronal
[pic 14]
[pic 15]
[pic 16]
[pic 17]
Este gráfico nos muestra una correlación lineal positiva ya que a medida que x va aumentando, y tambien aumenta de forma proporcional en las dos variables.
Por lo tanto la tasa de mal clasificados es de 0.371 por lo que deducimos que el modelo predice de forma erronea el 37% de los casos, entonces como es el valor mas bajo, concluimos que el modelo de red neuronal es el mas eficiente.
Modificaciones de los modelos supervisados
[pic 18][pic 19]
Con base al grafico ROC que nos muestra la comparación entre los tres modelos, deducimos que a raíz del crecimiento en el eje y existe una mayor eficiencia en el modelo, al usar la tasa de mal clasificados ya que nos indica las fallas que tiene cada modelo.
[pic 20]
Diagrama de árbol [pic 21]
En base al árbol concluimos que la variable Y se seleccionó por tener un valor más alto, también concluimos que no existe diferencia estadística significativa entre el valor de alfa y el valor de p; El valor de 5.0724, tiene una diferencia significativa mayor, en comparación a la otra rama del árbol.
Comparativo entre matrices de confusión
[pic 22]
[pic 23]
En la tabla anterior observamos el resultado de los tres modelos con su respectiva clasificación ya que son de importancia relevante para el modelo.
Ecuación de la regresión logística [pic 24]
[pic 25][pic 26]
No existe evidencia estadística significativa en ninguna variable
Ecuación de la red neuronal
[pic 27]
[pic 28]
[pic 29]
Conclusiones
Con los modelos utilizados anteriormente se puede concluir lo siguiente.
Con la gráfica de dispersión se puede analizar que existe mucha dispersión entre una observación y otra, por lo que se concluye que la correlación entre una variable y la otra no es significativa. Al tener solamente dos variables no se pudo realizar un modelo predictivo, ya que es necesario más de dos variables y un mayor número de observaciones por variable.
Para la red neuronal deberemos analizar el TMC, sin hacerle ningún cambio tiene la menor TMC, esto quiere decir que tiene baja probabilidad de equivocarse a una predicción.
Al momento de modificar los tres modelos supervisados, comprobamos que la red neuronal es la más eficiente. De la misma manera con la curva ROC, siguió confirmando que la red neuronal es el mejor modelo.
Al momento de ejecutar el método stepwise para la ecuación de regresión lineal, no nos arrojó ninguna variable significativa, por ello en los resultados no había valores.
La ecuación de la red neuronal es muy extensa, por lo que se optó dar una metodología o pasos a seguir para obtenerla.
...