Aprendizaje_Automatico
Enviado por Aaron1337 • 29 de Diciembre de 2022 • Apuntes • 2.864 Palabras (12 Páginas) • 279 Visitas
TEMA 3: Aprendizaje automático
La minería de datos es el conjunto de análisis utilizado para la identificación de los patrones desconocidos que se ocultan dentro de los grandes conjuntos de datos. Los análisis pueden ser realizados tanto de forma automática como semiautomática. Para esto es necesario conocer y utilizar diferentes técnicas que proceden de áreas como la gestión de bases de datos, la estadística, la inteligencia artificial y, en particular, el aprendizaje automático.
Actualmente, la minería de datos es una expresión que está de moda, por lo que en muchas ocasiones se utiliza incorrectamente para hacer referencia a todo lo que tenga que ver simplemente con el manejo de grandes volúmenes de datos, incluso en situaciones en las que no se realiza un descubrimiento de patrones en los conjuntos de datos.
La característica que define a la minería de datos es la identificación de patrones. El tipo de patrones que se pueden estudiar son múltiples: la identificación de relaciones entre conjuntos de variables (análisis de regresión), la identificación de grupos semejantes o detección de anomalías (análisis de clúster) o la identificación de hechos que suceden de forma conjunta (reglas de asociación).
Proceso KDD
La minería de datos se enmarca dentro del proceso que se conoce como KDD (Knowlege Discovery in Databases o Descubrimiento de Conocimiento en Bases de Datos), en este proceso, a grandes rasgos, se dan los siguientes pasos:
Selección: En el primer paso se han de seleccionar las variables que se utilizarán en el resto del proceso. Las variables se pueden dividir en variables dependientes (aquellas para las que se desea predecir o inferir su valor) y las variables independientes (aquellas que se utilizarán para realizar las predicciones). No en todos los análisis se utilizan variables dependientes, lo que se pretende es identificar nuevos patrones.
Análisis: En este paso se suelen utilizar diferentes técnicas estadísticas para la obtención de información que permitan describir los tipos de los datos que se han seleccionado. Esta información se puede utilizar para la identificación de valores atípicos (outliers), los cuales pueden distorsionar las conclusiones obtenidas, o para la existencia de valores nulos.
Procesado y transformación: En este paso se aplican transformaciones a los conjuntos de datos para que estos pueden ser utilizados en los diferentes modelos empleados en el proceso de modelado. Por ejemplo, en este paso se pueden normalizar los valores o crear nuevas variables a partir de las originales.
Minería de datos: Este es el paso en el que se construyen los modelos con los que se pretende explicar las observaciones. Por ejemplo, estos se pueden aplicar en los datos para identificar similitudes o para la predicción de cierto tipo de comportamiento.
Interpretación y evaluación: En este paso los resultados de los modelos construidos previamente han de ser interpretados y evaluados para comprobar que las predicciones realizadas son coherentes con las observaciones. En caso de que el modelo final no supere esta evaluación, el proceso puede repetirse desde el principio o a partir de cualquiera de los pasos anteriores. En caso de que se supere la evaluación, el modelo puede pasar a producción y los resultados ser utilizados en futuros análisis.
Producción: En esta fase los resultados de los modelos se pueden utilizar para solventar las necesidades de negocio. Aquí es importante evaluar continuamente los resultados para comprobar que las conclusiones obtenidas siguen siendo válidas a medida que pasa el tiempo.
El esquema de este proceso se muestra en la figura 1.1. En esta se puede ver cómo el proceso KDD comienza con la selección de los datos. Una vez seleccionados, se procede al análisis, procesado, modelado (minería de datos) y evaluación. Al terminar la evaluación de los modelos, estos pueden pasar a producción, lo que servirá para resolver los problemas del negocio y el conocimiento adquirido para realizar una nueva selección de datos con la que se inicia un nuevo proceso. KDD es un proceso cíclico en el conocimiento de los datos y los modelos mejoran a media que se itera con ellos.
[pic 1]
Algunos autores afirman que el proceso KDD incluye también otros procesos, como la limpieza e integración de los datos al comienzo del proceso y la visualización y representación final de los resultados.
Ciclo de vida
Los modelos utilizados en minería de datos tienen un ciclo de vida. El modelo inicial ha de ser creado y, si este es validado durante el proceso de evaluación, es desplegado en producción. Generalmente, el proceso de creación suele ser costoso en cuanto a recursos, siendo necesario disponer de perfiles especializados y altamente cualificados para ello. Por otro lado, la ejecución de los modelos en producción no suele ser costosa, ya que las predicciones las suele realizar de forma automática una máquina. Es corriente que el rendimiento de los modelos decaiga con el tiempo, debido a cambios de hábitos de los clientes u otros cambios que se puedan dar en el entorno. En este punto es necesario crear nuevos modelos para adaptarlos a la nueva realidad, momento en el que los perfiles altamente cualificados vuelven a ser necesarios. Esto es lo que se conoce como ciclo de vida de los modelos.
Fase de creación del modelo
En el proceso de creación de modelos es necesario importar los datos a partir de las fuentes existentes, que en la mayoría de las ocasiones son bases de datos. A partir de estas fuentes se han de extraer las posibles variables que se utilizarán en los modelos, estas variables pueden corresponder a cualquier característica objetiva que pueda ser representada mediante un valor numérico, ordinal o una categoría. En algunos tipos de modelos es necesario disponer, además, de una variable con el valor que se desea predecir posteriormente, para poder crear el modelo, a la que se denomina variable dependiente. Todo esto se ha de introducir en un algoritmo de aprendizaje automático que genera un modelo. El esquema de este proceso se muestra en la figura 1.2.
[pic 2]
Fase de producción
Una vez que se ha definido el modelo en la fase de construcción, este puede pasar a producción. En esta nueva fase se han de extraer los datos necesarios para realizar las predicciones y aplicar el mismo proceso que el utilizado en la fase previa. Cambiar la forma en la que se procesan los datos, generalmente, anula los resultados que se obtienen de los modelos construidos, ya que no hay garantía de que se haya utilizado la misma información. Este es el momento en el que los datos se introducen en el modelo para obtener una predicción. El esquema de esta fase se muestra en la figura 1.3.
...