Examen tipo test sobre Aprendizaje automático

Enviado por Christopher Marabel Calderón • 15 de Junio de 2022 • Examen • 5.664 Palabras (23 Páginas) • 937 Visitas

Página 1 de 23

Tema 2 – Introducción al aprendizaje automático

¿Cómo se relaciona la minería de datos con el KDD?:

La minería de datos es una fase de KDD.

¿Cuál no es un problema típico de aprendizaje automático?:

División.

¿Qué tipo de análisis se debería realizar para un conjunto de datos en el que se desea predecir una cantidad numérica?
Regresión.
¿Cuál de los siguientes tipos de análisis es el de mayor complejidad?
Causal.
Los algoritmos de aprendizaje no supervisado se caracterizan por:
Los algoritmos no requieren conocer la respuesta para su entrenamiento.
El k-nn es un algoritmo de aprendizaje automático que se puede clasificar como:
Supervisado.
¿Cuál es la diferencia entre los objetos KNeighborsClassifier y RadiusNeighborsClassifier?
KNeighborsClassifier utiliza el número de vecinos como criterio para clasificar.

¿Qué tipo de análisis se debería realizar para un conjunto de datos en el que se deseapredecir una categoría y los datos se encuentran etiquetados?
Clasificación.

¿Cuántas fases tiene KDD?
6.

¿Qué fase del ciclo de vida de un modelo suele ser la más costosa en cuanto a recursos?
Creación.

Tema 3 – Modelos supervisados

¿Cuál de los siguientes parámetros puede hacer que un algoritmo de Random Forest sobreajuste al aumentar su valor?
Profundidad del árbol. Al aumentar la profundidad de los árboles, el tamaño de cada una de las ramas es menor, favoreciendo el sobreajuste.
¿Cuál de las siguientes afirmaciones puede ser verdad después de agregar una nueva variable a un modelo de regresión lineal?
El R2 aumenta y el error cuadrático medio disminuye. El R2 aumenta a medida que aumenta la calidad del modelo, mientras que el error cuadrático disminuye al medir el error.
Al implementar un modelo de clasificación para la detección de fraude se ha observado que se han identificado correctamente 85 casos de fraude y 890 no fraudulentos. Por otro lado, el modelo marca como fraude 10 (falsos positivos) casos que no lo son y deja escapar 15 (falsos negativos) que sí lo son. ¿Cuál es la exactitud de este modelo?
0,894. TP / (TP + FP) = 85 / (85 + 10) = 0,894.
¿Cuántos coeficientes necesitan estimarse en un modelo de regresión lineal simple con solamente una variable independiente?
El término independiente y el parámetro de la variable.
El sobreajuste es más probable cuando se tienen conjuntos de datos que son:
Pequeños. Es más fácil que aparezca el sobreajuste en conjuntos de datos pequeños.
En un problema de clasificación se han obtenido los siguientes resultados: precisión: 90%, exactitud: 70% y exhaustividad: 95%. En el caso de que se cambiase la definición de positivo por negativo, es decir, que las variables etiquetadas como positivas pasaran a ser negativas y las negativas positivas. ¿Cuál sería la precisión del modelo?
0,90. La precisión no se ve afectada por este cambio.
Supongamos que se tiene una regresión lineal de grado 2 en la que el error de entrenamiento y validación es cero. ¿Qué pasará si se ajusta la regresión lineal de grado 1?
Hay posibilidades de que el polinomio de grado 1 ajuste con más error. Si el polinomio de grado 2 ajusta sin error, reducir el grado, generalmente, llevará a un error mayor.
Al implementar un modelo de clasificación para la detección de fraude se ha observado que se han identificado correctamente 85 casos de fraude y 890 no fraudulentos. Por otro lado, el modelo marca como fraude 10 (falsos positivos) casos que no lo son y deja escapar 15 (falsos negativos) que sí lo son. ¿Cuál es la precisión de este modelo?
0,975. (TP + TN) / (TP + FP + TN + FN) = (85 + 890) / (85 +10 +890 + 15) = 0,975
Supongamos que se tiene una regresión lineal de grado 2 en la que el error de entrenamiento y validación es cero. ¿Qué pasará si se ajusta la regresión lineal de grado 3?
Hay posibilidades de que el polinomio de grado 3 sobreajuste. Si el polinomio de grado 2 ajusta sin error, aumentar el grado, posiblemente, conlleve a sobreajuste.
Supongamos que se tiene una regresión logística en la que se obtienen una precisión para un conjunto de entrenamiento y otro de test. En caso de añadir una variable nueva ¿qué se puede afirmar de la precisión?
La precisión del conjunto de entrenamiento aumenta o permanece igual. Al aumentar el número de características, la precisión de entrenamiento aumenta o se mantiene, pero no se puede decir nada del conjunto de test.

Tema 4 – Modelos no supervisados

Supongamos que se dispone de 8 datos para crear tres clústeres utilizando el algoritmo de k-means. Los clústeres son:

C1: (5, 8), (5, 10), (5, 6)

C2: (9, 3), (7, 3), (8, 6)

C3: (3, 2), (3, 4)

¿Cuál es la distancia del centroide del clúster C3 al punto (4, 5) utilizando la distancia de Manhattan?
El centroide es (3,3) y la distancia es (4 – 3) + (3 – 5) = 3.

¿Cuál es el número mínimo de características que se requieren para la creación de unclúster con k-means?
A partir de una ya se puede definir una métrica y crear clústeres.
Se ha calculado una gráfica de Silhouette para un conjunto de datos. ¿Cuál es el número declústeres óptimos según la figura?
5.

[pic 1]
Durante el entrenamiento de k-means, ¿es posible que la posición de un centroide no cambie de una ejecución a la siguiente posición del centroide?
Sí, una vez que se llega a una solución estable, la posición de los centroides no cambia de una iteración a la siguiente.
¿Cuál de los siguientes algoritmos se puede utilizar para reducir la dimensionalidad de los datos?
PCA.
Se ha calculado una gráfica de distorsión para un conjunto de datos. ¿Cuál es el número de clústeres óptimos según la figura?
4.
[pic 2]
¿En cuál de los siguientes planteamientos prácticos se podría utilizar un algoritmo de análisis de clúster, como, por ejemplo, k-means, para resolverlo?
A partir de los patrones de uso en un sitio web, identificar los diferentes grupos de usuarios que existen.
Supongamos que se dispone de 8 datos para crear tres clústeres utilizando el algoritmo de k-means. Los clústeres son:

C1: (5, 8), (5, 10), (5, 6)

C2: (9, 3), (7, 3), (8, 6)

C3: (3, 2), (3, 4)

¿Cuál es la posición de los centroides?

C1: (5, 8), C1: (5+5+5, 8+10+6)/3 = (5, 8)
C2: (8, 4), C2: (9+7+8, 3+3+6)/3 = (8,4)
C3: (3, 3), C3: (3+3, 3+4)/2 = (3, 3)

...

Descargar como txt (20.7 Kb) pdf (162.6 Kb) docx (218.2 Kb)

Leer 22 páginas más »

Leer documento completo Guardar

Disponible sólo en Essays.club