Business intelligence Business Intelligence Midterm
Enviado por Ninoka • 24 de Diciembre de 2018 • 1.565 Palabras (7 Páginas) • 511 Visitas
...
Tipos de variables en negocios:
- Categórica (menta, cherry, chocolate)
- Rangos (bueno, promedio, muy bueno, excelente)
- Intervalos (20°, 30°)
- Métricas verdaderas – intervalos de variables que miden desde un punto de cero absoluto. (Edad, peso, altura)
Desde un punto de vista geométrico las variables van desde la menos efectiva a la más efectiva.
Hay diferentes técnicas para medir la similitud entre dos registros de datos.
- El escalamiento ajusta los valores de las variables para tomar en cuenta el hecho de que diferentes variables son medidas en diferentes unidades o diferentes rangos. (El ingreso de una dueña de casa se mide en decenas de miles de dólares , y el número de hijos en unidades).
- Dividir cada variable por el rango (diferencia entre valor mayor y menor) después de sustraer el valor menor. Esto mapea todas las variables en un rango de 0 a 1.
Dividir cada variable
- Dividir cada variable por la media. Esto se conoce como variable indexada.
- Sustraer la media a cada variable y luego dividir esto por la desviación estándar. Esto se conoce estandarización o convirtiendo a z-scores. Un z-score dice cuantas desviaciones estándar de la media está el valor.
- La ponderación provee un ajuste relativo para la variable, debido a que algunas variables son más importantes que otras.
- Si pensamos en 2 familias con los mismos ingresos, tienen más en común que dos familias que viven en casas del mismo tamaño.
- Algunos herramientas de cluster permiten al usuario ponderar para diferentes dimensiones.
- También es posible tener ponderado ajustando los valores de la escala. Primero escala los valores a un rango común para eliminar los efectos de rango. Luego, multiplica los resultados por un ponderador (peso) para introducir un análisis en el contexto de negocios.
¿Qué hace a un cluster bueno?
- Los cluster deben tener miembros con un alto grado de similitud
- La manera estándar de medir similitud dentro de los cluster es la varianza. Cluster con baja varianza son considerado mejores.
- El tamaño de los cluster también es importante. Un enfoque alternativo es utilizar la varianza promedio.
- Algunos Programas de DM calculan la medida de la silueta.
Finalmente, si una detección identifica un buen cluster entre los débiles, este puede ser útil para:
-ajustar los buenos para futuros estudios.
-correr el análisis nuevamente para ver si mejoras en los clusteres son reveladas de los cluster débiles.
Reglas de asociación
Market Basket Analysis
Cada consumidor compra diferentes conjuntos de productos, en diferentes cantidades y en diferentes ocasiones. El MBA usa esta información para: Identificar quienes son los consumidores; Entender por qué realizan ciertas compras; Comprender mejor acerca de su mercancía (mejores y más rápidos movimientos, productos que son comprados juntos, productos que se pueden beneficiar de una promoción); Toma de acción (Diseño de tiendas, qué productos poner en lugares especiales, en promoción o con cupones).
La combinación de todos estos elementos, con la lealtad del cliente, adquiere mucho más valor.
Las técnicas de Data Mining están estrechamente relacionadas con MBA.
Las AR pueden ser automáticamente generadas: AR representa patrones en la data sin una variable etiqueta específica; Son buenos ejemplos de DM indirecto; Los patrones tienen sentido para nosotros. Ejemplo: Quienes compran Barbies, también compran barras de cereal.
Las reglas de asociación son utilizadas tanto para:
.- Detrás de un local de ventas o supermercados
.- Compras realizadas utilizando tarjetas
.- Tratados financieros
.- Servicios de compra opcionales
.- Servicios bancarios, etc.
MBA es un conjunto de técnicas, las AR son las más comunes, que se enfocan en el punto de venta POST transacción. Hay 3 tipos de MBA (post-data): Consumidores; Ordenes (datos básicos de compra); Productos (mercancía/servicios adquiridos).
METODOLOGÍA DEL CRISP-DM
1.- Traducir la oportunidad de negocios en un problema de DM.
2.- Seleccionar los datos apropiados
3.- Conocer la data
4.- Crear un modelo
5.- Corregir problemas con la data
6.- Transformar la data para traer información a la superficie
7.- Construir modelos
8.- Evaluar los modelos
9.- Desplegar el modelo
10.- Evaluar los resultados
11.- Comenzar de nuevo
Tipos de reglas de asociación
1.- Reglas accionables: Contienen alta calidad, e información accionable
2.- Reglas triviales: La información ya es conocida por quienes están familiarizados con el negocio
3.- Reglas inexplicables: No hay explicación y no hay acciones sugeridas.
Conceptos de reglas de asociación
1.- Regla de asociación: Entre 2 ítems, A y B, significa que la presencia de A en un registro implica la presencia de B en el mismo registro. A→B
2.- Soporte: Es la
...