Lenguaje R y tratamiento de datos
Enviado por Christopher Marabel Calderón • 15 de Junio de 2022 • Trabajo • 3.775 Palabras (16 Páginas) • 414 Visitas
Página 1 de 16
Tema 2 – Lenguaje R y tratamiento de datos
- El comando en R para averiguar si una posición es un valor faltante es:
Nan.is
- R es un lenguaje orientado a:
Análisis estadístico.
- ¿Cuál es el objetivo del análisis estadístico?
Conocer las interacciones entre las variables presentes en los datos y establecer reglas entre ellas que recojan los patrones observables. - Una operación de división, agregación y combinación sirve para:
Observar datos agregados de una columna numérica respecto de una columna categórica. - Un IDE es:
Interfaz de desarrollo de un lenguaje de programación. - La analítica de redes sociales gira en torno a la idea central de que:
Nuestras relaciones definen quiénes somos y cómo actuamos.
- En un grafo, el diámetro es:
El geodésico más largo. - Cuando una sola arista conecta dos componentes, esa arista recibe el nombre de:
Puente.
- Si un camino pasa por todas las aristas de un grafo una sola vez, se trata de un:
Camino euleriano.
- La distancia geodésica es:
El camino más corto entre dos nodos.
- Si queremos escribir un comando que se ejecute, ¿dónde lo ponemos?
Consola.
- ¿Cuál es el comando para cargar una tabla desde un archivo?
Read.csv
- ¿Qué secuencia de comandos transformaría un elemento en caso de ser una lista aplicando una función, y no haría nada en caso contrario?
If(STATEMENT){for ... APPLY FUNC}else{}
- Un dataframe:
Puede tener distintos tipos de dato en una fila.
- ¿Cómo seleccionarías la segunda columna de un dataframe X?
X[2] - El comando en R para averiguar si una posición es un valor faltante es:
is.na
Tema 3 – Análisis exploratorio de datos
- Para saber si la diferencia de altura entre hombres y mujeres de una población es apreciable visualmente, ¿qué gráfico realizarías?
Gráfico de barras. - Si se desea conocer los valores medios de una variable numérica agrupados por distintas categorías, ¿qué gráfico realizarías?
Gráfico de barras. - Si se desea conocer el rango de valores que toma una variable observando sus valores atípicos, ¿qué tipo de gráfica debería usarse?
Gráfico de caja. - Los gráficos se usan:
De modo habitual para obtener convicciones sobre los datos. - El objetivo de una EDA es:
Explorar y obtener ideas iniciales sobre los datos para luego formalizarlas potencialmente. - Se sospecha que los salarios de una empresa se agrupan en varios tramos. ¿Qué gráfico realizarías para observar esta posible agrupación?
Histograma. - Si en un histograma se forman dos zonas donde hay mayor acumulación, ¿qué se puede inferir?
Hay dos grupos dentro de los datos que causan la bimodalidad. - Para observar la relación entre dos variables numéricas continuas, ¿qué tipo de gráfico debería usarse?
Gráfico de dispersión. - ¿Qué librería de R es usada para representar?
Ggplot. - Para observar la relación entre el peso de una persona y su estatura, ¿qué gráfico realizarías?
Gráfico de dispersión. - Si en un histograma se forman dos zonas donde hay mayor acumulación, ¿qué se puede inferir?
Hay dos grupos dentro de los datos que causan la bimodalidad.
Tema 4 – Interferencia estadística
- Queremos establecer si las mujeres y los hombres de una empresa que realizan el mismo trabajo obtienen la misma retribución, ¿qué haríamos?
ANOVA con igualdad de medias.
- ¿Qué distribuciones tienen una relación especial?
Exponencial y Poisson, ya que ambas están relacionadas con tasas de ocurrencia de eventos y tiempo. - Las facturas de una empresa se ponen en tela de juicio al creer que pueden estar siendo generadas artificialmente, ¿qué método usarías?
Test Chi Cuadrado respecto a la distribución Benford. - Un intervalo de confianza:
Indica un rango donde con una cierta confianza está un parámetro. - Tras realizar un contraste de hipótesis:
Si el p-valor es menor que 0.05 rechazamos H0. - ¿Qué distribución aproxima adecuadamente "el tiempo de vida de una bombilla"?
Exponencial.
- ¿Cuántas hipótesis puede tener un contraste?
Siempre es una dicotomía entre dos posibles. - La longitud de la pierna de una rana sigue una distribución que se acumula en torno a un valor y decrece rápidamente al alejarse, ¿de qué distribución se trata?
Normal.
- La diferencia entre inferencia paramétrica y no paramétrica es:
Una trata sobre distribuciones probabilísticas que dependen de un parámetro y la otra de distribuciones que no dependen de parámetros.
- La inferencia estadística:
Obtiene conclusiones estadísticas sobre una población a partir de una muestra.
Tema 5 – Modelos lineales y aprendizaje estadístico
- En un modelo lineal, cuantas más variables contenga, mayor será su complejidad. Indica cuál de estas frases es correcta:
El mejor modelo es aquel en el que la complejidad y simpleza se equilibran, aportando valores de sesgo y varianza reducidos. - Si variaciones unitarias de la variable predictora corresponden a variables porcentuales de la variable objetivo:
Haremos una regresión log(y)= Ax + B - Si un modelo de regresión ajusta perfectamente los datos, diremos:
Tiene sesgo nulo. - La relación entre los conceptos de dependencia y correlación es:
Si dos variables son correladas, entonces son dependientes. - Los residuos de un modelo de regresión lineal:
Deben aproximarse por una distribución normal de media 0. - Para comparar dos modelos, se puede:
Usar R² ajustado, que tiene en cuenta la complejidad de los mismos. - Si tomamos un modelo más complejo de lo que se necesita para explicar los datos:
Tendremos más varianza de la necesaria para explicar los datos.
- Si dos variables son independientes, su correlación rondará el valor:
0
- El criterio AIC:
Pondera el sesgo y la varianza del modelo penalizando la complejidad. - ¿Qué pasa cuando se aplica una penalización muy grande en una regresión de tipo Ridge?
Parte de los coeficientes se acercarán a cero, pero no serán ceros. En una regresión Ridge, los coeficientes se acercan a cero, pero no son cero; en las LASSO los coeficientes se hacen cero a medida que aumenta el parámetro de penalización.
Tema 6 – Regresión logística, modelos restringidos de Ridge y Lasso y gradiente descendiente
- Los falsos positivos en una regresión logística sobre "el cliente abandonará la empresa" son:
Entradas que el modelo etiqueta como abandonos sin serlo. - Si en un modelo de fraude 0-1 queremos minimizar la cantidad de personas legales declaradas fraudulentas:
Se desea minimizar los falsos positivos. - La multicolinealidad es un problema que consiste en:
Hay variables en el conjunto de predictores que dependen linealmente entre sí. - Un modelo hueco es:
Un modelo construido sobre un subconjunto de las variables. - El algoritmo de gradiente descendente:
Sirve para obtener un mínimo local útil que construya un modelo eficiente.
- Si los resultados de una regresión logística para una entrada son 0.51:
Estamos débilmente a favor de que el caso es un 1. - Si el objetivo es una métrica de error que pondere los falsos negativos y falsos positivos, debemos usar:
F1-score.
- Un ejemplo de variable binaria es:
Si un tumor es benigno o maligno. - Si el log odd de "padecer una enfermedad cardiovascular" respecto a la variable "peso en Kg" vale 1.04, ¿qué significado tiene?
Por cada Kg de peso la probabilidad de padecer una enfermedad cardiovascular queda multiplicada por 1.04.
- Un modelo hueco en regresión logística es:
Tiene los coeficientes no significativos nulos.
Tema 7 – GLMS y series temporales
- Para modelar una serie con estacionalidad usarías:
SARIMA. - Si tenemos una variable que es el "cociente entre ingresos y gastos de una compañía", ¿qué GLM aplicarías para explicar esta variable respecto a los predictores de negocio?
Gamma, ya que es una variable numérica positiva.
- Una serie temporal con estacionalidad:
Tiene un comportamiento de repetición que se observa cada período.
- Los modelos ARIMA pueden:
Recoger tendencia y estacionalidad. - La mejor métrica para medir un modelo sobre series temporales es:
MAPE en general, ya que se traduce en desviaciones porcentuales.
...
Disponible sólo en Essays.club