Analisis futbol
Enviado por Ignacio Barba • 28 de Febrero de 2023 • Trabajo • 1.794 Palabras (8 Páginas) • 299 Visitas
ÍNDICE
1. DESCRIPCIÓN DE DATOS………………………………………………………………...1
2. PREGUNTAS OBJETO DE ANÁLISIS…………………………………………………….2
3. DEPURACIÓN Y VALIDACIÓN DE DATOS……………………………………………..2
4. ANÁLISIS
4.1. Regresión logística…………………………………………………………………..2
4.2. Análisis del discriminante…………………………………………………………...3
4.3. Análisis del discriminante cuadrático……………………………………………….3
4.4. KNN: K-Nearest Neighbors………………………………………………………....4
4.5. Selección de modelos………………………………………………………………..4
4.6. Ridge y Lasso………………………………………………………………………..5
4.7. Árboles de decisión………………………………………………………………….5
4.8. Random forest……………………………………………………………………….6
4.9. PCA: Análisis de componentes principales………………………………………....7
4.10. Clustering…………………………………………………………………………....9
5. CONCLUSIONES……………………………………………………………………....10
1. DESCRIPCIÓN DE DATOS
La muestra con la que vamos a desarrollar el estudio, consta de 15 variables, 13 de ellas explicativas y 2 más de
respuesta. Las observaciones disponibles son 3040. También hemos utilizado 668 observaciones de la Premier
League (liga inglesa) para utilizarlos como test en alguno de los modelos, y comparar resultados.
Variables explicativas:
1. HS: tiros (local) 8. AF: faltas cometidas (visitante)
2. AS: tiros (visitante) 9. HY: amarillas (local)
3. HST: tiros a puerta (local) 10. AY: amarillas (visitante)
4. AST: tiros a puerta (visitante) 11. HR: rojas (local)
5. HC: corners (local) 12. AR: rojas (visitante)
6. AC: corners (visitante) 13. B365H: cuota de victoria (local)
7. HF : faltas cometidas (local)
Variable de salida:
1. FTR: Victoria local (Si, No)
2. HTR: Victoria local al descanso (Si, No)
Este es el análisis de datos que obtenemos de la tabla, sin someterlos a ningún tipo de tratamiento:
1
2. PREGUNTAS OBJETO DE ANÁLISIS
● ¿Cual es el resultado final del partido?
● ¿Cual es el resultado al descanso?
3. DEPURACIÓN Y VALIDACIÓN DE DATOS
● Detección de inconsistencias: Definición y aplicación de reglas de validación
Conforme a los parámetros algunas de las variables numéricas tiene un rango. Para establecer las
cotas de inconsistencia nos hemos basado en rangos que se permiten para que un partido sea posible.
Sustituimos estos datos por datos missing.
● Datos Missing
Detectamos dónde están estos valores y concluimos que no hay missing values en nuestra data inicial,
y tampoco datos inconsistentes.
● Outliers
Debidos a algunas grandes diferencias entre partidos, no los vamos a tratar, en caso de hacerlo, lo
haríamos aplicando también KNN. No podemos eliminarlos.
Tras depurar nuestros datos, nos damos cuenta de que nuestra data inicial ya estaba limpia.
Para mayor homogeneidad en los datos, a la hora de aplicar las diferentes técnicas hacemos un
reescalado de los datos.
4. ANÁLISIS
4.1. REGRESIÓN LOGÍSTICA
Buscamos el lambda que minimice nuestra error del test al predecir FTR con todas las variables
excepto HTR.
Este lambda es 0.51. Con ello tenemos:
Sensibilidad: 0.7517241
Especificidad: 0.7641509
Error: 23.19079
Matriz de Confusión:
Para predecir HTR en lugar del FTR, el lambda óptimo es
0.46, y nos queda un error: 27.30263
Área bajo la curva ROC al predecir FTR: 0.8208
Área bajo la curva ROC al predecir HTR: 0.7606
2
Si utilizamos como test observaciones de la liga inglesa, y predecimos FTR, usando el modelo
entrenado con los datos de la liga española, nos queda un error: 28.47222.
4.2. ANÁLISIS DEL DISCRIMINANTE
En nuestro caso hemos seleccionado FTR como la variable de regresión y hemos dejado fuera del
análisis HTR .
El umbral seleccionado con la curva ROC es lambda= 0.48,con un error de 24.67105.
Sensibilidad=0.7317073, Especificidad=0.7725857
Seleccionando HTR como variable de regresión
...