OBTENCIÓN DE UN MODELO MATEMÁTICO PARA LA PREDICCIÓN DEL VOLUMEN MOLAR DE COMPUESTOS DERIVADOS DEL ÁCIDO BENZOICO
Enviado por Sara • 31 de Julio de 2018 • 3.820 Palabras (16 Páginas) • 461 Visitas
...
Las energías HOMO y LUMO son los descriptores químico-cuánticos más populares. Se ha demostrado que estos orbitales juegan un papel muy importante en muchas de las reacciones químicas y en la formación de los complejos de transferencia de cargas. La energía HOMO está directamente relacionada con el potencial de ionización, y caracteriza la susceptibilidad de la molécula a ser atacada por electrófilos. La energía LUMO está directamente relacionada con la afinidad electrónica y caracteriza la afinidad de la molécula a ser atacada por nucleófilos.
El momento dipolar y/o la polaridad de una molécula guarda una estrecha relación con varias propiedades físico-químicas. El momento dipolo de la molécula es un reflejo de la polaridad global de la molécula. Mientras que las energías totales y los calores de formación de las moléculas son un reflejo de la estabilidad de las mismas, por lo que el empleo de estos índices puede conducir a la explicación diversos fenómenos.
La energía de los orbitales moleculares HOMO y LUMO se encontró en la sección de electronic state, según los datos reportados para la energía del orbital virtual y orbital ocupado, el momento dipolar estaba explicito como total dipole moment y la energía total de la molécula, de las cuatro disponibles y de valores muy cercanas entre fue el valor “sum of electronic and thermal energies”. Para la selección se tuvo en cuenta el valor para cada molécula en la última iteración (por lo general para cada molécula había disponibles tres iteraciones donde se refleja en la última consistencia en el valor obtenido entre iteraciones- Estos son defectos de cálculo del Gaussian)
Los descriptores fueron organizados en columnas del d1 al d90 para el grupo de moléculas (Ver el archivo Excel Generalidades trabajo soporte Hoja: “Descriptores”). Estos descriptores presentaban diferentes escalas y por lo tanto fue necesario ajustarlas o normalizarlas para todos los descriptores. La normalización se hizo restando a cada valor el minino del conjunto de datos de los descriptores y dividiéndolo por la diferencia entre el valor máximo y mínimo del mismo conjunto.
Selección de los descriptores
Teniendo en cuenta que no existe un criterio simple ni único, para seleccionar qué parámetros deben utilizarse en un estudio de relación estructura-volumen molar. Se aplicaron diferentes técnicas, entre ellas análisis de correlación usando la función análisis de datos de Excel, Mínimos cuadrados parciales (PLS) y Análisis de componentes principales (PCA), empleando el complemento Multibase 2015 en Excel.
Inicialmente se hizo una selección de los descriptores, a partir del análisis de correlación de todos los descriptores con el observable o “volumen molar” y entre ellos. En este análisis de correlación resultó un número considerable de descriptores aparentemente bien relacionados (Correlación> 0,60). Entre todos ellos se eliminaron aquellos con una correlación inferior al 0,7 (Ver hoja de Excel Selección des R> 0,70) obteniéndose un total de 36 descriptores correlacionados con el observable.
A partir del conjunto de 16 descriptores seleccionado previamente, se siguieron dos procedimientos:
- Análisis por Mínimos cuadrados parciales (PLS). A partir de PLS se encuentra una regresión lineal mediante la proyección de los descriptores seleccionados y el volumen molar a un nuevo espacio. Este procedimiento se considera clave, teniendo en cuenta que la matriz de predictores y/o descriptores tiene más variables que observaciones, y cuando hay multicolinealidad entre los valores de X. Con este grupo de descriptores se obtuvo un R= 0,9087 y en las gráficas de variable de importancia un valor elevado para todas ellas, sin embargo, para elegir entre ellas se tuvieron en cuenta las columnas más altas o de altura apreciable entre ellas. Fue posible confirmar la presencia significativa de los descriptores: d68, d69, d70, d71, d48, d42, d24, entre otros. Para mayor información ver archivo Excel soporte: PLS datos de correlación.
[pic 2]
Imagen 1. Resultados análisis por PLS, descriptores relacionados con el volumen molar.
- Análisis de correlación refinado para eliminar entre ellos los descriptores muy relacionados entre sí, y evitar la redundancia a la hora de tener el grupo base de descriptores. Esta eliminación entre ellos fue obtenida, identificando entre pareja de descriptores sí existía una alta correlación > 0,90. Identificada la alta correlación se procedió a detallar el grado de correlación de cada uno de ellos con los resultados del volumen molar, y se eliminaba aquel con menor correlación con respecto al Y u propiedad que se desea determinar (volumen molar). Una vez realizada esta eliminación se obtuvieron los descriptores d21, d22, d24, d29, d32, d42, d68 y d70, resultados que se ilustran en la imagen 1. (Ver Archivo Excel soporte Generalidades trabajo: Hoja “Elim. Descriptores relacionados”).
[pic 3]
Imagen 2. Resultados análisis de correlación descriptores con el volumen molar
De estos resultados es posible apreciar, una selección aparentemente apropiada de descriptores para determinar el volumen molar, teniendo en cuenta que en el grupo de los 8, se encuentran descriptores topológicos, topográficos, geométricos y hay ausencia de los mecanocuánticos y CPSA que para este caso se comprueba no son necesarios.
- Aplicación análisis de componentes principales (PCA)
En el análisis por componentes principales, los descriptores se combinan en una línea recta. Esta línea recta es rotada de diferentes formas y en cada una de ellas se establecen los coeficientes de cada variable. Por lo tanto, en dependencia de la rotación que se haga, así variarán los valores de los coeficientes de cada descriptor estructural o químico-físico y por ende su peso o influencia en este componente. Cada componente (resultado del ajuste a un modelo lineal de todas las variables en las rotaciones efectuadas) se utiliza como una nueva variable. Por este análisis se pretende observar con el cuadrado de los loadings de cada componente, cuál de ellos contiene posiblemente mayor información o es de mejor calidad para describir una muestra. Este análisis se realiza también empleando el complemento Multibase 2015. El modo de configuración de este procedimiento se realizó escogiendo como variables el conjunto total de descriptores (90) y de moléculas como muestras, es decir, el conjunto
...