Resumen de Data mining
Enviado por Eric • 13 de Agosto de 2017 • 1.183 Palabras (5 Páginas) • 1.131 Visitas
...
- Construir el modelo
- Evaluación del modelo
- Evaluación
- Evaluar los resultados
- Revisar el proceso
- Determinar el siguiente paso → Lista de posibles acciones y Decisión
- Resultados
- Plan de despliegue
- Plan de monitoreo y mantenimiento
- Producir los reportes finales
- Revisión del proyecto
- KDD → Uso para Ciencias de Computación (Software WEEKA)
- Selección de Datos → Muestreo y Selección
- Pre-Proceso→ Limpieza de Datos
- Exploración y Transformación → Transformación de Datos
- Reconocimiento de Patrones → Modelado (Tareas de Data Mining)
- Evaluación e Interpretación → Reportes y Visualización
---------------------------------------------------------------
- SEMMA → Uso Estadístico (Software SAS)
- Sample → Muestreo (Datos de entrada)
- Explore → Explorar distribuciones, tareas de Data.
- Modify → Tranformacion de variables → AGRUPACION
- Model → Regresiones, Arboles de Decisiones, Redes Neuronales
- Assess → Evaluacion, Puntuacion, Reporte.
[pic 1]
- Aplicación KNIME
- Elementos Knime:
- Lienzo → Pantalla en Blanco
- Nodo → Diferentes Utilidades para realización proyectos
- Repositorio Nodos → Directorio con los Nodos existentes
- Tipos de Nodos:
- Nodo String to Number: sirve para leer datos numéricos en archivo CSV Reader
- Nodo Statistic: análisis estadistico (STATISTIC VIEW)
- Mediana → El 50% de la población posee mas de X valor, el Otro 50% posee menos de X valor
- Desviación Estándar → En promedio, la población oscila respecto a la media entre +/- valor
- Asimetría → Distribución respecto al promedio. Distancia de valores respecto media
- Asimétrica a la Izquierda → agrupación de datos sobre media → G
- Simétrica → agrupación de datos iguales en ambos lados de media → G=0
- Asimétrica a la Derecha → agrupación de datos debajo la media → G>0
- Curtosis → Grado de concentración de los valores en la región central.
- Leptocurtica → Gran concentración de valores → G>0
- Mesocurtica → Concentración Normal → G=0
- Platicurtica → Baja concentración de valores → G
- Nominal → Distribucion de variables categóricas. Politomicas vs Dicotomicas
- Top/Bottom → Cantidad de variables categóricas y sus frecuencias.
- Color Manager: Permite discriminar categorías por colores. Se une BBDD inicial
- Análisis Univariado
- Pie Chart → Grafico de tortas → Variable Categorica
- Histogram → Variable Numerica
- Box Plot → Caja de Bigotes → Variable Numerica → Q1 (25%), Q2 (50%), Q3 (75%), Q3-Q1 valores en donde se mueve el (50%). Valores Outlier.
- Analisis Bivariado
- Scatter Plot → Grafico de Dispersion → Variables Categoricas y Numericas. NO STRING → Relacion lineal, positiva y fuerte .
- Box Plot Conditional → Caja Bigotes → Variables Categorica y Numerica → Compara Rangos.
- Nodo Linear Correlation: Correlacion positiva (R>0), Negativa (R
...