Essays.club - Ensayos gratis, notas de cursos, notas de libros, tareas, monografías y trabajos de investigación
Buscar

CATEGORIZACION DE VARIABLES.

Enviado por   •  15 de Abril de 2018  •  2.277 Palabras (10 Páginas)  •  785 Visitas

Página 1 de 10

...

[pic 2]

MÉTODO DE CATEGORIZACIÓN POR ARBOLES DE DECISION

Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión más “acertada”, desde un punto de vista probabilístico, ante un abanico de posibles decisiones. Estos árboles permiten examinar los resultados y determinar visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos específicos y relaciones que tal vez no encontraríamos con estadísticos más tradicionales.

Los árboles de decisión son una técnica estadística utilizados para la segmentación, la estratificación, la predicción, la reducción de datos y el filtrado de variables, la identificación de interacciones, la fusión de categorías y la discretización de variables continuas.

Los árboles de decisión crean un modelo de clasificación basado en diagramas de flujo. Clasifican casos en grupos o pronostican valores de una variable dependiente (criterio) basada en valores de variables independientes (predictores). Las ventajas de un árbol de decisión son

• Facilita la interpretación de la decisión adoptada.

• Facilita la comprensión del conocimiento utilizado en la toma de decisiones.

• Explica el comportamiento respecto a una determinada decisión.

• Reduce el número de variables independientes.

Los árboles de decisión dividen los datos sucesivamente con base a algún criterio que implique relaciones entre las variables predictoras y la variable objetivo. Los usos generales de los árboles de decisión se basan principalmente en segmentar, estratificar, predecir, reducir datos y filtrar variables, fusionar categorías, etc. Está diseñado para trabajar con un número elevado de variables (CHAID)

Los diagramas CHAID se deben pensar como el "tronco de un árbol" con particiones progresivas en "ramas más pequeñas”. El "tronco inicial del árbol" son todos los participantes en el estudio. Las variables predictoras conducen a una discriminación estadísticamente significativa, el "más significativo" define la primera partición de la muestra, o la primera ramificación del árbol

El resultado al final del proceso es un árbol que presenta una serie de grupos con diferencias máximas sobre la variable dependiente. En cada paso, las pruebas estadísticas se hacen para determinar si una partición es significativa y puede ser hecha

IMPUREZA EN UN ÁRBOL DE DECISIÓN

Es el nombre del criterio para crecer el árbol con una variable objetivo nominal. La impureza captura el grado en el que los casos dentro de un nodo están concentrados en una sola categoría. Un nodo puro es aquel en que todos los casos están en una sola categoría, es decir, que el mayor grado de impureza se da cuando todas las categorías de una variable predictora contienen la misma cantidad de casos, cuando todas las categorías o clases aparecen en igual proporción, siendo este nodo nada útil.

Para la medición de impureza se utiliza el indicador GINI, el cual mide la proporción P(t)i de casos en el nodo t de la categoría i, la medida de dispersión es:

[pic 3]

¿CÓMO SE HACEN LAS PARTICIONES?

Para variables continuas u ordinales se ordenan los datos dentro de los nodos por los valores de las categorías de la variable predictora. Posteriormente se calcula la disminución en impureza para todos los posibles puntos de corte y de esta manera se determina la mejor partición.

Si la variable es nominal nominales se deben evaluar y tener en cuenta todas las posibles combinaciones de sus categorías, y la partición se hace cuando se encuentra la mayor reducción en impureza.

BINNING

El binning es un proceso de categorización que transforma variables continuas en pequeños conjuntos de observaciones. En particular, este proceso puede ser usado para definir el WOE (Weight of Evidence), adicionalmente es usado para la elección de las variables del modelo. Los atributos similares de una variable independiente X son agrupados en un mismo conjunto para mejorar el poder de predicción. Luego de la realización del binning, el Information Value (IV) y otros indicadores pueden ser calculados.

Hay cuatro tipos de Binning que pueden ser usados:

- Equal-width binning: los valores de X son divididos en un número definido de intervalos del mismo ancho

- Equal-size binning: los atributos son ordenados inicialmente y luego divididos en un número definido de contenedores del mismo tamaño. Si tiene valores distintos, todos los contenedores tendrán el mismo número de observaciones excepto la última que puede contener un número menos de observaciones. En este caso, los atributos repetitivos deben permanecer en el mismo grupo

- Optima binning: X es dividido inicialmente en una gran cantidad de contenedores del mismo ancho, luego estos grupos son tratados como categorías de una variable nominal y se agrupan para el número requerido de segmentos en una estructura de árbol

- Multi-interval Discretization binning: el propósito es discretizar el rango de una variable continua en múltiples intervalos y recursivamente definir los mejores contenedores

Un buen algoritmo binning debe seguir las siguientes reglas:

- Los valores missing deben ir separados

- Cada grupo debe contener al menos el 5% de las observaciones

- Ningún grupo debe contener solo “buenos” o “malos”

El WOE es un método cuantitativo que compara la proporción de buenos y malos para cada “nivel” y mide la fuerza de dichos atributos de una variable independiente. Para la definición del punto de corte óptimo es necesario obtener el mejor WOE para cada uno de los grupos que se especifiquen.

INCONVENIENTES DE CATEGORIZAR UNA VARIABLE CONTINUA

Aunque resulta atractiva la utilización de un método sistemático para la elección de los puntos de corte como el anteriormente descrito, la categorización de una variable cuantitativa supone

...

Descargar como  txt (14.6 Kb)   pdf (61.3 Kb)   docx (17.9 Kb)  
Leer 9 páginas más »
Disponible sólo en Essays.club