ANÁLISIS DE COMPONENTES PRINCIPALES
Enviado por Jerry • 6 de Marzo de 2018 • 2.743 Palabras (11 Páginas) • 393 Visitas
...
Volvemos a hacer el ACP, ahora con las 4 componentes principales seleccionadas.
pca zTMor zIEP zAccA zpib zVarPIB zInf zagri zind zUInt zCO2 zmerc zelect,components(4)
[pic 8]
[pic 9]
De la observación de la tabla anterior, vemos cómo cada componente principal está explicada por cada variable en una proporción o porcentaje y en relación directa ó inversa(signo) . Estos valores se llaman cargas ó pesos. También aparece en la última columna, la parte de la variabilidad no explicada por las variables, pues obviamente, al haberse eliminado 8 componentes, siempre habrá un margen de error.
A modo de ejemplo podríamos describir que la componente principal 1, está descrita en su mayor parte de forma inversa, por las variables zTMor (con un 44.51 %) y por la variable zagri(44.73%) y de forma directa, por las variables zAccA(44.34%), zUInt(37.88%) y zelect(43.76%).
También, es importante observar la columna unexplained, pues, aquí se describe la variabilidad no explicada de las variables. Por ejemplo la variable zIEP, correspondiente al % bruto de escolarización primaria, no está explicada por las componentes principales seleccionadas en un 60.89%.
A continuación vamos a calcular las puntuaciones de las componentes principales retenidas.
predict pc1 pc2 pc3 pc4, score
[pic 10]
El Cuadro generado es el mismo que el expresado arriba, con la diferencia de que no aparece la columna unexplained, que reflejaba la variabilidad no explicada por las variables. Además, al introducir en STATA el comando predict, se generan las variables especificadas.
Gráficamente representaremos también las puntuaciones o cargas de las componentes principales, a través del comando twoway
twoway (scatter pc1 pc2 pc3 pc4)
[pic 11]
En el gráfico se observan las puntuaciones de las componentes en relación con una de ellas que aparece en el eje de abcisas (en este caso la número 4) . No se pueden sacar grandes conclusiones de su observación. Lo único a destacar es que no hay excesivos datos atípicos, ya que todos se encuentran muy concentrados.
Por otro lado, otro de los requisitos de las componentes principales es que estén incorreladas, por ello, vamos a ver su matriz de correlaciones y su gráfico.
corr pc1 pc2 pc3 pc4
graph matrix pc1 pc2 pc3 pc4
[pic 12]
[pic 13]
Como se ve la correlación dos a dos entre las mismas es nula, como se puede observar también gráficamente.
A continuación vamos a interpretar las cargas, por lo que vamos a realizar nuevamente el ACP reteniendo sólo 2 componentes.
pca zTMor zIEP zAccA zpib zVarPIB zInf zagri zind zUInt zCO2 zmerc zelect,components(2)
[pic 14]
[pic 15]
De lo anterior se deduce, que con dos componentes principales, la variabilidad de la base de datos es de un 55,15%. Además nos habla de lo que cada variable aporta a cada una de las dos componentes principales retenidas, para que éstas expliquen de la mejor manera, la variabilidad de los datos. Podemos deducir que las variables zTMor, ZAccA, zagri, ZUInt y Zelect, son las que más influencia tienen sobre la PC1. Y por otro lado, las variables zpib, zCO2 y zmerc son las que mayor influencia tienen sobre la PC2 (Mayor información aportan a la 2ª componente).
Además, hay tres componentes que no aportan mucha información o variabilidad (zIEP, zInf y zind). Por ello, se pueden eliminar de la base de datos y volver a hacer el ACP sin incluirlas. No obstante, lo haremos en el apartado siguiente.
Siguiendo con el análisis anterior, lo que nos quedaría, sería hacer un biplot, para ver qué conclusión se puede sacar.
biplot zTMor zIEP zAccA zpib zVarPIB zInf zagri zind zUInt zCO2 zmerc zelect,rowopts(mlabel(idC) name(idC) msymbol(idC) mcolor(red))
[pic 16]
*CONCLUSIONES ACP.
De la observación del biplot, vemos que hay una serie de variables que van en la misma dirección como por ejemplo zCO2 y zpib(emisiones de CO2 y producto interior bruto, respectivamente). En este grupo, destacan especialmente tres países( es decir, USA, China y Japón ), que además se alejan de forma inversa de variables como zinf, referente a la tasa de inflación del país.
Por otro lado, existe otro grupo de países agrupados (principalmente economías europeas), que comparten características comunes. Son economías de tamaño medio(no tienen un pib tan alto), con un nivel de bienestar alto( en las variables ZUint, Zelect y ZAccA alcanzan los mayores niveles, y los menores en zTMor y zagri).
Por último, existe otro grupo de países, que tiene características inversas a los otros dos grupos (Níger, Afganistán, Camerún…). Tienen un bajo bienestar de vida, que se refleja de forma directa en la variable VTMor y de forma inversa en indicadores de bienestar como acceso a internet, agua potable o electricidad. Además son economías pobres con una baja industrialización (de forma directa, la variable zagri crece en ellas y están muy alejadas de la variable zind y zpib), y además inestables, lo que se refleja en la variable zVarPib.
4.-ANÁLISIS ALTERNATIVO PCA ELIMINANDO LAS VARIABLES zIEP, zInf y zind
Como hemos dicho antes, sería interesante, hacer un ACP, eliminando las tres variables que menos variabilidad aportaban al estudio, para ver si de esa manera se llegaba a una mejor conclusión.
drop zIEP zInf zind
[pic 17]
[pic 18]
[pic 19]
[pic 20]
biplot zTMor zAccA zpib zVarPIB zagri zUInt zCO2 zmerc zelect, rowopts(mlabel(idC) name(idC) msymbol(idC) mcolor(red))
[pic
...