Resumen de Data mining

Enviado por Eric • 13 de Agosto de 2017 • 1.183 Palabras (5 Páginas) • 1.416 Visitas

Página 1 de 5

...

- Construir el modelo

- Evaluación del modelo

- Evaluación

- Evaluar los resultados

- Revisar el proceso

- Determinar el siguiente paso → Lista de posibles acciones y Decisión

- Resultados

- Plan de despliegue

- Plan de monitoreo y mantenimiento

- Producir los reportes finales

- Revisión del proyecto

- KDD → Uso para Ciencias de Computación (Software WEEKA)

- Selección de Datos → Muestreo y Selección

- Pre-Proceso→ Limpieza de Datos

- Exploración y Transformación → Transformación de Datos

- Reconocimiento de Patrones → Modelado (Tareas de Data Mining)

- Evaluación e Interpretación → Reportes y Visualización

---------------------------------------------------------------

- SEMMA → Uso Estadístico (Software SAS)

- Sample → Muestreo (Datos de entrada)

- Explore → Explorar distribuciones, tareas de Data.

- Modify → Tranformacion de variables → AGRUPACION

- Model → Regresiones, Arboles de Decisiones, Redes Neuronales

- Assess → Evaluacion, Puntuacion, Reporte.

[pic 1]

- Aplicación KNIME

- Elementos Knime:

- Lienzo → Pantalla en Blanco

- Nodo → Diferentes Utilidades para realización proyectos

- Repositorio Nodos → Directorio con los Nodos existentes

- Tipos de Nodos:

- Nodo String to Number: sirve para leer datos numéricos en archivo CSV Reader

- Nodo Statistic: análisis estadistico (STATISTIC VIEW)

- Mediana → El 50% de la población posee mas de X valor, el Otro 50% posee menos de X valor

- Desviación Estándar → En promedio, la población oscila respecto a la media entre +/- valor

- Asimetría → Distribución respecto al promedio. Distancia de valores respecto media

- Asimétrica a la Izquierda → agrupación de datos sobre media → G

- Simétrica → agrupación de datos iguales en ambos lados de media → G=0

- Asimétrica a la Derecha → agrupación de datos debajo la media → G>0

- Curtosis → Grado de concentración de los valores en la región central.

- Leptocurtica → Gran concentración de valores → G>0

- Mesocurtica → Concentración Normal → G=0

- Platicurtica → Baja concentración de valores → G

- Nominal → Distribucion de variables categóricas. Politomicas vs Dicotomicas

- Top/Bottom → Cantidad de variables categóricas y sus frecuencias.

- Color Manager: Permite discriminar categorías por colores. Se une BBDD inicial

- Análisis Univariado

- Pie Chart → Grafico de tortas → Variable Categorica

- Histogram → Variable Numerica

- Box Plot → Caja de Bigotes → Variable Numerica → Q1 (25%), Q2 (50%), Q3 (75%), Q3-Q1 valores en donde se mueve el (50%). Valores Outlier.

- Analisis Bivariado

- Scatter Plot → Grafico de Dispersion → Variables Categoricas y Numericas. NO STRING → Relacion lineal, positiva y fuerte .

- Box Plot Conditional → Caja Bigotes → Variables Categorica y Numerica → Compara Rangos.

- Nodo Linear Correlation: Correlacion positiva (R>0), Negativa (R

...

Descargar como txt (8.3 Kb) pdf (53.8 Kb) docx (572.7 Kb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Essays.club