Análisis de correlación y regresión
Enviado por tolero • 12 de Diciembre de 2018 • 2.502 Palabras (11 Páginas) • 826 Visitas
...
[pic 5]
Figura 3.- Relaciones posibles entre X y Y en diagramas de dispersión
3.- ¿Qué es un coeficiente de correlación?
El coeficiente de correlación es la segunda medida que podemos usar para describir qué tan bien explica una variable a otra. Cuando tratamos con muestras, el coeficiente de correlación de la muestra se denota por r y es la raíz cuadrada del coeficiente de determinación de muestra:
[pic 6]
Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva, pero si b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r indica la dirección de la relación entre las dos variables X y Y. Si existe una relación inversa, esto es, si Y disminuye al aumentar X, entonces r caerá entre 0 y -1. De manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r será un valor en el intervalo de 0 a 1.
El coeficiente de correlación es más difícil de interpretar que r2. Por ejemplo, ¿Qué significa r =0.9? Para responder esta pregunta, debemos recordar que r=0.9 es lo mismo que r2= 0.81. Esto último nos dice que el 81% de la variación en Y es explicada por la recta de regresión. De esta forma, vemos que r es sólo la raíz cuadrada de r2, y su significado es qué tanto se relacionan las variables x y y. Por lo que r= 0.9 significa que el 90% de los datos se relacionan entre sí.
4.- Correlación producto momento de Pearson
Puede tomar cualquier valor desde -1.00 hasta + 1.00inclusive. Un coeficiente de correlación de -1.00 o de +1.00 indica correlación perfecta. Por ejemplo, si en el ejemplo anterior se obtuviera un coeficiente de correlación de +1.00, esto indicaría que el número de llamadas de venta sería un predictor perfecto del número de copiadoras vendidas. Es decir el número de llamadas de venta y el número de copiadoras vendidas están relacionados perfectamente en un sentido lineal positivo. Un valor calculado de -1.00 indicara que la variable independiente X y la variable dependiente Y están perfectamente relacionadas de una manera lineal negativa. En el diagrama 11-2 se muestra como se vería un diagrama de dispersión si la relación entre los dos conjuntos de datos fuera de línea y perfecta.
Si no hay absolutamente ninguna relación entre los dos conjuntos de variables la r de Pearson será cero. Coeficiente de correlación r cercano a cero (digamos .08) indica que la relación es muy débil. A la misma conclusión se llega si r = -0.08. Coeficientes de -0.09 y +0.91 tienen igual magnitud; ambos indican una correlación muy fuerte entre los dos conjuntos de variables. La magnitud del coeficiente de correlación no depende de la dirección (ya sea –o+).
5.- Coeficiente de Pearson
Es la medida de correlación lineal más comúnmente usada en estadística, y se denota por la letra “r”
6.- Cálculo de la R de Pearson
El coeficiente de correlación de Pearson se obtiene a través de la siguiente fórmula:
[pic 7]
Donde SC corresponde a la suma de los cuadrados bien sea para X, para Y o para el factor XY. Cuando r=0 se implica la ausencia de correlación lineal entre “y” y “x”. Un valor de r positivo implica que la pendiente de la recta es positiva (la recta crece a la derecha); un valor de r negativo indica que la recta decrece a la derecha (pendiente negativa).
ANÁLISIS DE REGRESIÓN
1.- Método de regresión lineal
La ecuación con que se describe cómo se relaciona y con x y en la que se da un término para el error, se le llama método de regresión. El siguiente es el modelo que se emplea en la regresión lineal simple.
[pic 8]
βo y β1 se conocen como los parámetros del modelo, y ϵ (la letra griega épsilon) es una variable aleatoria que se conoce como término del error. El término del error da cuenta de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y. En la regresión lineal simple, cada observación consta de dos valores: uno de la variable independiente y otro de la variable dependiente.
2.- Recta de regresión “Y” en “X”
La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X
3.- Recta de regresión “X” en “Y”
La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.
4.- Coeficiente de regresión y el cálculo de la correlación a través de los mismos.
En un análisis de regresión se empieza por hacer una suposición acerca del modelo apropiado para la relación entre las variables dependientes e independientes. En el caso de la regresión lineal simple, se supone que el modelo de regresión es
[pic 9]
Después empleando el método de mínimos cuadrados se obtienen los valores de βO y β1, que son las estimaciones de los parámetros β0 y β1, respectivamente, del modelo. Así se llega la ecuación de regresión estimada
ŷ = b0 + b1x
Como se vio, el valor del coeficiente de determinación (r2) es una medida de la bondad de ajuste de la ecuación de regresión estimada. Sin embargo, aun cuando se obtenga un valor grande para r2, la ecuación de regresión estimada no debe ser usada hasta que se realice un análisis para determinar si el modelo empleado es adecuado. Un paso importante para ver si el modelo empleado es adecuado es probar la significancia de la relación. Las pruebas de significancia en el análisis de regresión están basadas en las suposiciones siguientes acerca del término del error ϵ.
Ejercicio de correlación:
Las librerías de la universidad han vendido el libro Believe or Not: Wonders of Statistics Guide durante 12 semestres y desean estimar la relación entre las ventas y el número de secciones de estadística elemental que
...