Resumen 2 Estadistica aplicada
Enviado por Bárbara Cárdenas • 12 de Marzo de 2023 • Resumen • 2.363 Palabras (10 Páginas) • 229 Visitas
RESUMEN PRUEBA 2 ESTADISTICA APLICADA
TRATAMIENTO DE MEDIAS
- PRUEBA CHI-CUADRADO:
-La prueba de chi-cuadrado nos indica si existe algún tipo de relación (dependientes o independientes) entre las variables de estudio.
-Antes de realizar la prueba como tal podemos analizar una tabla contingente de dos variables y analizar si existe algún tipo de relación;
Data <- read_excel() Head(data)
Tablacontingente<-table(data$var1, data$var2)
Analizamos si existe algún tipo de patrón en la tabla entregada y sacamos conclusiones.
-Para hacer la prueba como tal tenemos 2 hipótesis:
H0: las variables en estudio son independientes Ha: las variables en estudio NO son independientes Prueba<- chisq.test(tablacontingente)
Me entregara varios valores, pero nos interesa el p-value:
-si p-value>0.05 : retenemos H0, las variables son independientes.
-si p-value<0.05: rechazamos H0, las variables NO son independientes. Debemos asegurarnos que se cumpla la regla del 5: Prueba$expected
Me entregara una tabla con los valores de la esperanza de una var dada la otra. Si todos los valores de la tabla son mayores a 5, entonces se cumple la regla de 5.
También se puede hacer un estudio más exhaustivo por variable, para esto hacemos:
Data1<- subset(data, data$var1==”característica”)
Tablacontingente1<-table(data1$var2, data1$var3) Prueba1 <- chisq.test(tablacontingente1)
En este caso la prueba estaría considerando solo a los encuestados que cumplían
con la característica indicada en el código, y se estudia si var2 y var3 de dichos participantes son independientes o no.
[pic 1]
REGRESIÓN LINEAL MÚLTIPLE:
Primero debemos definir las variables dependientes e independientes, el objetivo de estudio y hacer un análisis descriptivo univariado de la variable dependiente.
summary(datos$VAR1) (contextualizamos)
library(moments)
skewness(datos$VAR1) (coef.asimetria; sesgos) boxplot(datos$VAR1, col="#FCF3CF", main= "VAR1") hist(datos$VAR1, col="#FCF3CF", main= " VAR1")
Luego debemos ver si las variables del estudio cumplen con la condición básica
para armas un modelo de regresión lineal: debe existir correlación entre las variables. (determinamos si la relación es directa o indirecta)
pairs(datos) install.packages("PerformanceAnalytics") library(PerformanceAnalytics) chart.Correlation(datos)
matriz =cor(datos) library(corrplot) library(RColorBrewer)
corrplot(matriz, type = "upper", col = brewer.pal(n=8, name = "RdYlBu"), addCoef.col = T)
Analizando los correlogramas y tablas entregadas podemos hacer un estudio completo de las correlaciones y sacar ciertas conclusiones.
Una vez ya teniendo claro cuales variables tienen correlación con la variable dependiente debemos estudiar si son significativas para el objetivo del estudio.
Para esto realizamos una prueba de hipótesis de correlación poblacional en donde;
H0: correlación = 0 (correlación NO es significativa) Ha: correlación ≠ 0 (correlación SI es significativa) cor.test(datos$VAR1, datos$VAR2) cor.test(datos$VAR1, datos$VAR3)
.
.
cor.test(datos$VAR1, datos$VARn)
Cada una de estas pruebas nos entregara un p-value;
-si p-value < 0.05: rechazamos H0, SI es significativa.
-si p-value>0.05: retenemos H0, NO es significativa.
Ahora que ya tenemos una idea de cuales variables tienen correlaciones importantes comenzamos a con el modelo de regresión lineal múltiple. En un principio usamos todas las variables y luego según ciertos criterios iremos eliminando las variables que no nos sirven.
install.packages("car") library(car) install.packages("carData")
library(carData)
m1= lm(VAR1~VAR2+VAR3+VAR4+…+VARn)
summary(m1)
El summary nos entregara distintos valores;
3. Estimate: si son negativos nos indican que si la var1 aumenta en 1 unidad, la var2 disminuirá en el valor entregado en promedio. Si estimate=-a, var2 disminuye en -a en promedio, si var1 aumenta en una unidad. Y si es positivo la relación es directa.
Además, es el coeficiente que acompañara a la variable en el modelo de regresión final. Por ejemplo:
Estimate | |
(Intercept) | -6 |
Var2 | -A |
Var3 | B |
Var34 | C |
Modelo regresión: Var1= -6 - AVar2 +Bvar2 + CVar3
- Pr(ltl): me indica si la variable explica significativamente la variabilidad de la var1 (variable dependiente)
-si Pr(ltl)> 0.05: la variable NO es significativa.
-si Pr(ltl)<0.05: la variable SI es significativa.
- R-squared: si nos encontramos en una regresión lineal simple utilizamos este parámetro, si estamos en una regresión lineal multiple utilizamos Adjusted R-squared.
Nos indica en cuanto porcentaje las variables en conjunto explican la variabilidad del valor de var1 (variable dependiente).
-si Adjusted R-squared<0.05 tiene sentido plantear el modelo como conjunto.
-si Adjusted R-squared>0.05: NO tiene sentido plantear el modelo como conjunto.
*Para eliminar las variables podemos ir haciéndolo de dos formas distintas: o Eliminamos de una todas las variables no significativas.
o Vamos eliminando de una a una la variable con Pr(ltl) de mayor valor Una vez eliminadas podemos armar nuestro modelo de regresión lineal: Modelo regresión: Var1= -6 - AVar2 +Bvar2 + CVar3
Ahora debemos probar que se cumplan todos los supuestos: 1. Normalidad:
Podemos usar dos tipos de prueba de hipotesis: shapiro Wilk Normality Test y Lilliefors (Kolmogorov-Smirnov) donde;
...