Analisis futbol

Enviado por Ignacio Barba • 28 de Febrero de 2023 • Trabajo • 1.794 Palabras (8 Páginas) • 656 Visitas

Página 1 de 8

ÍNDICE

1. DESCRIPCIÓN DE DATOS………………………………………………………………...1

2. PREGUNTAS OBJETO DE ANÁLISIS…………………………………………………….2

3. DEPURACIÓN Y VALIDACIÓN DE DATOS……………………………………………..2

4. ANÁLISIS

4.1. Regresión logística…………………………………………………………………..2

4.2. Análisis del discriminante…………………………………………………………...3

4.3. Análisis del discriminante cuadrático……………………………………………….3

4.4. KNN: K-Nearest Neighbors………………………………………………………....4

4.5. Selección de modelos………………………………………………………………..4

4.6. Ridge y Lasso………………………………………………………………………..5

4.7. Árboles de decisión………………………………………………………………….5

4.8. Random forest……………………………………………………………………….6

4.9. PCA: Análisis de componentes principales………………………………………....7

4.10. Clustering…………………………………………………………………………....9

5. CONCLUSIONES……………………………………………………………………....10

1. DESCRIPCIÓN DE DATOS

La muestra con la que vamos a desarrollar el estudio, consta de 15 variables, 13 de ellas explicativas y 2 más de

respuesta. Las observaciones disponibles son 3040. También hemos utilizado 668 observaciones de la Premier

League (liga inglesa) para utilizarlos como test en alguno de los modelos, y comparar resultados.

Variables explicativas:

1. HS: tiros (local) 8. AF: faltas cometidas (visitante)

2. AS: tiros (visitante) 9. HY: amarillas (local)

3. HST: tiros a puerta (local) 10. AY: amarillas (visitante)

4. AST: tiros a puerta (visitante) 11. HR: rojas (local)

5. HC: corners (local) 12. AR: rojas (visitante)

6. AC: corners (visitante) 13. B365H: cuota de victoria (local)

7. HF : faltas cometidas (local)

Variable de salida:

1. FTR: Victoria local (Si, No)

2. HTR: Victoria local al descanso (Si, No)

Este es el análisis de datos que obtenemos de la tabla, sin someterlos a ningún tipo de tratamiento:

2. PREGUNTAS OBJETO DE ANÁLISIS

● ¿Cual es el resultado final del partido?

● ¿Cual es el resultado al descanso?

3. DEPURACIÓN Y VALIDACIÓN DE DATOS

● Detección de inconsistencias: Definición y aplicación de reglas de validación

Conforme a los parámetros algunas de las variables numéricas tiene un rango. Para establecer las

cotas de inconsistencia nos hemos basado en rangos que se permiten para que un partido sea posible.

Sustituimos estos datos por datos missing.

● Datos Missing

Detectamos dónde están estos valores y concluimos que no hay missing values en nuestra data inicial,

y tampoco datos inconsistentes.

● Outliers

Debidos a algunas grandes diferencias entre partidos, no los vamos a tratar, en caso de hacerlo, lo

haríamos aplicando también KNN. No podemos eliminarlos.

Tras depurar nuestros datos, nos damos cuenta de que nuestra data inicial ya estaba limpia.

Para mayor homogeneidad en los datos, a la hora de aplicar las diferentes técnicas hacemos un

reescalado de los datos.

4. ANÁLISIS

4.1. REGRESIÓN LOGÍSTICA

Buscamos el lambda que minimice nuestra error del test al predecir FTR con todas las variables

excepto HTR.

Este lambda es 0.51. Con ello tenemos:

Sensibilidad: 0.7517241

Especificidad: 0.7641509

Error: 23.19079

Matriz de Confusión:

Para predecir HTR en lugar del FTR, el lambda óptimo es

0.46, y nos queda un error: 27.30263

Área bajo la curva ROC al predecir FTR: 0.8208

Área bajo la curva ROC al predecir HTR: 0.7606

Si utilizamos como test observaciones de la liga inglesa, y predecimos FTR, usando el modelo

entrenado con los datos de la liga española, nos queda un error: 28.47222.

4.2. ANÁLISIS DEL DISCRIMINANTE

En nuestro caso hemos seleccionado FTR como la variable de regresión y hemos dejado fuera del

análisis HTR .

El umbral seleccionado con la curva ROC es lambda= 0.48,con un error de 24.67105.

Sensibilidad=0.7317073, Especificidad=0.7725857

Seleccionando HTR como variable de regresión

...

Descargar como txt (13.6 Kb) pdf (65.4 Kb) docx (15.9 Kb)

Leer 7 páginas más »

Leer documento completo Guardar

Disponible sólo en Essays.club