Tema: Minería de Datos
Enviado por Jimmy PA • 20 de Mayo de 2018 • Informe • 412 Palabras (2 Páginas) • 544 Visitas
Página 1 de 2
Tema: Minería de Datos
Objetivos:
- Utilizar Rapid Miner para realizar las tareas de limpieza y transformación de los datos proporcionados por el docente.
Introducción:
La tabla adult_train.exe tiene un formato equivalente a la tabla adult_data.xls vista en clase. Visualice los metadatos correspondientes a la información almacenada en adult_train.xls y verifique que:
Hay atributos con datos faltantes
- El atributo “Sex” correspondiente al sexo de la persona censada contiene más de 2 valores.
- El atributo “Age” posee valores inválidos. Las edades deben pertenecer al intervalo [17,80].
- El nivel educativo de la persona está indica
Desarrollo:
- Utilice dos operadores Replace Missing Values: uno para completar los valores faltantes de los atributos “Education_num” y “Capital_Lost” con el valor mínimo y otro para completar el resto de los atributos que presenten valores faltantes con su correspondiente valor promedio. Verifique observando los metadatos que todos los atributos poseen valor.
[pic 1]
[pic 2]
- Utilice el operador Generate Attributes para generar dos atributos nuevos: o Un nuevo atributo “Edad” que contenga los valores de las edades del atributo “Age” que se encuentran dentro del intervalo [17,80]. Para los casos en que “Age” es inferior a 17, “Edad” vale 17. Por el contrario, si “Age” es superior a 80, “Edad” vale 80.
Nota: La expresión a utilizar es: if( Age80, 80, Age)) o Un atributo “Sexo” que contenga sólo dos valores. Aquí se trata de uniformar la notación. Puede asignar el par de etiquetas que prefiera
[pic 3]
[pic 4]
- Utilice el operador Select Attributes para seleccionar los atributos: “Edad”, “Education_num”, “Hours_per_week” y “Class”. Ejecute el proyecto y realice todos los posibles diagramas de dispersión utilizando la opción Scatter Matrix tomando al atributo “clase” como atributo para colorear. Analice los distintos diagramas y relacione los atributos. Por ejemplo, ¿puede afirmar que las personas que poseen un nivel educativo por debajo de 8 y que trabajan menos de 40 horas no ganan más de 50 mil dólares por año? ¿existe alguna relación entre el nivel educativo y el hecho de ganar más de 50 mil dólares por año? ¿Esto último tiene alguna relación con la cantidad de horas trabajadas?
[pic 5]
[pic 6]
[pic 7]
[pic 8]
[pic 9]
Conclusiones:
- Rapid Miner es una herramienta que simplifica las tareas de minado con operaciones que permiten trabajar directamente con los datos obtener resultados específicos con la posibilidad de ser interpretados en gráficos estadísticos.
Recomendaciones:
- Las operaciones se pueden usar en simultaneo para optimizar el resultado de la minería de datos
Bibliografía:
[1] Documentación entregada por el docente
...
Disponible sólo en Essays.club