Lenguaje R y tratamiento de datos

Enviado por Christopher Marabel Calderón • 15 de Junio de 2022 • Trabajo • 3.775 Palabras (16 Páginas) • 640 Visitas

Página 1 de 16

Tema 2 – Lenguaje R y tratamiento de datos

El comando en R para averiguar si una posición es un valor faltante es:

Nan.is

R es un lenguaje orientado a:

Análisis estadístico.

¿Cuál es el objetivo del análisis estadístico?
Conocer las interacciones entre las variables presentes en los datos y establecer reglas entre ellas que recojan los patrones observables.
Una operación de división, agregación y combinación sirve para:
Observar datos agregados de una columna numérica respecto de una columna categórica.
Un IDE es:
Interfaz de desarrollo de un lenguaje de programación.
La analítica de redes sociales gira en torno a la idea central de que:
Nuestras relaciones definen quiénes somos y cómo actuamos.

En un grafo, el diámetro es:
El geodésico más largo.
Cuando una sola arista conecta dos componentes, esa arista recibe el nombre de:
Puente.

Si un camino pasa por todas las aristas de un grafo una sola vez, se trata de un:
Camino euleriano.

La distancia geodésica es:
El camino más corto entre dos nodos.

Si queremos escribir un comando que se ejecute, ¿dónde lo ponemos?
Consola.

¿Cuál es el comando para cargar una tabla desde un archivo?
Read.csv

¿Qué secuencia de comandos transformaría un elemento en caso de ser una lista aplicando una función, y no haría nada en caso contrario?
If(STATEMENT){for ... APPLY FUNC}else{}

Un dataframe:
Puede tener distintos tipos de dato en una fila.

¿Cómo seleccionarías la segunda columna de un dataframe X?
X[2]
El comando en R para averiguar si una posición es un valor faltante es:
is.na

Tema 3 – Análisis exploratorio de datos

Para saber si la diferencia de altura entre hombres y mujeres de una población es apreciable visualmente, ¿qué gráfico realizarías?
Gráfico de barras.
Si se desea conocer los valores medios de una variable numérica agrupados por distintas categorías, ¿qué gráfico realizarías?
Gráfico de barras.
Si se desea conocer el rango de valores que toma una variable observando sus valores atípicos, ¿qué tipo de gráfica debería usarse?
Gráfico de caja.
Los gráficos se usan:
De modo habitual para obtener convicciones sobre los datos.
El objetivo de una EDA es:
Explorar y obtener ideas iniciales sobre los datos para luego formalizarlas potencialmente.
Se sospecha que los salarios de una empresa se agrupan en varios tramos. ¿Qué gráfico realizarías para observar esta posible agrupación?
Histograma.
Si en un histograma se forman dos zonas donde hay mayor acumulación, ¿qué se puede inferir?
Hay dos grupos dentro de los datos que causan la bimodalidad.
Para observar la relación entre dos variables numéricas continuas, ¿qué tipo de gráfico debería usarse?
Gráfico de dispersión.
¿Qué librería de R es usada para representar?
Ggplot.
Para observar la relación entre el peso de una persona y su estatura, ¿qué gráfico realizarías?
Gráfico de dispersión.
Si en un histograma se forman dos zonas donde hay mayor acumulación, ¿qué se puede inferir?
Hay dos grupos dentro de los datos que causan la bimodalidad.

Tema 4 – Interferencia estadística

Queremos establecer si las mujeres y los hombres de una empresa que realizan el mismo trabajo obtienen la misma retribución, ¿qué haríamos?
ANOVA con igualdad de medias.

¿Qué distribuciones tienen una relación especial?
Exponencial y Poisson, ya que ambas están relacionadas con tasas de ocurrencia de eventos y tiempo.
Las facturas de una empresa se ponen en tela de juicio al creer que pueden estar siendo generadas artificialmente, ¿qué método usarías?
Test Chi Cuadrado respecto a la distribución Benford.
Un intervalo de confianza:
Indica un rango donde con una cierta confianza está un parámetro.
Tras realizar un contraste de hipótesis:
Si el p-valor es menor que 0.05 rechazamos H0.
¿Qué distribución aproxima adecuadamente "el tiempo de vida de una bombilla"?
Exponencial.
¿Cuántas hipótesis puede tener un contraste?
Siempre es una dicotomía entre dos posibles.
La longitud de la pierna de una rana sigue una distribución que se acumula en torno a un valor y decrece rápidamente al alejarse, ¿de qué distribución se trata?

Normal.

La diferencia entre inferencia paramétrica y no paramétrica es:
Una trata sobre distribuciones probabilísticas que dependen de un parámetro y la otra de distribuciones que no dependen de parámetros.

La inferencia estadística:
Obtiene conclusiones estadísticas sobre una población a partir de una muestra.

Tema 5 – Modelos lineales y aprendizaje estadístico

En un modelo lineal, cuantas más variables contenga, mayor será su complejidad. Indica cuál de estas frases es correcta:
El mejor modelo es aquel en el que la complejidad y simpleza se equilibran, aportando valores de sesgo y varianza reducidos.
Si variaciones unitarias de la variable predictora corresponden a variables porcentuales de la variable objetivo:
Haremos una regresión log(y)= Ax + B
Si un modelo de regresión ajusta perfectamente los datos, diremos:
Tiene sesgo nulo.
La relación entre los conceptos de dependencia y correlación es:
Si dos variables son correladas, entonces son dependientes.
Los residuos de un modelo de regresión lineal:
Deben aproximarse por una distribución normal de media 0.
Para comparar dos modelos, se puede:
Usar R² ajustado, que tiene en cuenta la complejidad de los mismos.
Si tomamos un modelo más complejo de lo que se necesita para explicar los datos:
Tendremos más varianza de la necesaria para explicar los datos.

Si dos variables son independientes, su correlación rondará el valor:
0

El criterio AIC:
Pondera el sesgo y la varianza del modelo penalizando la complejidad.
¿Qué pasa cuando se aplica una penalización muy grande en una regresión de tipo Ridge?
Parte de los coeficientes se acercarán a cero, pero no serán ceros. En una regresión Ridge, los coeficientes se acercan a cero, pero no son cero; en las LASSO los coeficientes se hacen cero a medida que aumenta el parámetro de penalización.

Tema 6 – Regresión logística, modelos restringidos de Ridge y Lasso y gradiente descendiente

Los falsos positivos en una regresión logística sobre "el cliente abandonará la empresa" son:
Entradas que el modelo etiqueta como abandonos sin serlo.
Si en un modelo de fraude 0-1 queremos minimizar la cantidad de personas legales declaradas fraudulentas:
Se desea minimizar los falsos positivos.
La multicolinealidad es un problema que consiste en:
Hay variables en el conjunto de predictores que dependen linealmente entre sí.
Un modelo hueco es:
Un modelo construido sobre un subconjunto de las variables.
El algoritmo de gradiente descendente:

Sirve para obtener un mínimo local útil que construya un modelo eficiente.

Si los resultados de una regresión logística para una entrada son 0.51:
Estamos débilmente a favor de que el caso es un 1.
Si el objetivo es una métrica de error que pondere los falsos negativos y falsos positivos, debemos usar:
F1-score.

Un ejemplo de variable binaria es:
Si un tumor es benigno o maligno.
Si el log odd de "padecer una enfermedad cardiovascular" respecto a la variable "peso en Kg" vale 1.04, ¿qué significado tiene?
Por cada Kg de peso la probabilidad de padecer una enfermedad cardiovascular queda multiplicada por 1.04.

Un modelo hueco en regresión logística es:
Tiene los coeficientes no significativos nulos.

Tema 7 – GLMS y series temporales

Para modelar una serie con estacionalidad usarías:
SARIMA.
Si tenemos una variable que es el "cociente entre ingresos y gastos de una compañía", ¿qué GLM aplicarías para explicar esta variable respecto a los predictores de negocio?

Gamma, ya que es una variable numérica positiva.

Una serie temporal con estacionalidad:
Tiene un comportamiento de repetición que se observa cada período.

Los modelos ARIMA pueden:
Recoger tendencia y estacionalidad.
La mejor métrica para medir un modelo sobre series temporales es:

MAPE en general, ya que se traduce en desviaciones porcentuales.

...

Descargar como txt (11.6 Kb) pdf (59.8 Kb) docx (150.7 Kb)

Leer 15 páginas más »

Leer documento completo Guardar

Disponible sólo en Essays.club