Práctica 2: El modelo de regresión lineal

1. Objetivo de los modelos de regresión

Interesa mucho predecir el valor de una variable numérica $Y$ que tiene mucha dispersión
Hay otra variable $X$ que “casi” determina el valor de $Y$. Es decir:
- Existe una función $f: \mathbb{R} \to \mathbb{R}$ (desconocida) de modo que $Y \approx f(X)$
- $Y = f(X) + \text{ERROR}$, donde ERROR es una cantidad aleatoria y “pequeña”
- A $f$ se le llama función de regresión
- Conocer $f$ permite predecir $Y$ a partir de $X$, con mucha menos incertidumbre
Ejemplo: predecir el peso de un individuo. Si se observa la población completa, se ve mucha dispersión. Si se separa por alturas, se ve poca dispersión en cada altura (ver figura)

2. El modelo de regresión lineal simple

El modelo de regresión lineal simple de $Y$ sobre $X$, de parámetros $\beta_0$, $\beta_1$ y $\sigma^2$ se tiene cuando:
- $Y$ es variable numérica de interés
- $X$ es otra variable numérica
- Al muestrear $(X,Y)$ resultando $\begin{array}{|c||c|c|c|} \hline X & x_1 & x_2 & \cdots & x_i & \cdots \\ \hline Y & y_1 & y_2 & \cdots & y_i & \cdots \\ \hline \end{array}$
  - $X=x_i$ (elegido por el investigador, o aleatorio)
  - $Y = y_i = \beta_0 + \beta_1 x_i + e_i$ donde $e_i$ es un muestreo del modelo $\text{N}(0, \sigma^2)$, independiente de los otros muestreos, e independiente del valor que tome la $X$

3. El modelo de regresión lineal múltiple

El modelo de regresión lineal múltiple de $Y$ sobre $(X_1, \ldots, X_p)$, de parámetros $\beta_0$, $\beta_1, \ldots, \beta_p$ y $\sigma^2$ se tiene cuando:
- $Y$ es variable numérica de interés
- $X_1, \ldots, X_p$ son otras variables numéricas
- Al muestrear $(X_1, \ldots, X_p, Y)$ resultando $\begin{array}{|c||c|c|c|} \hline X_1 & x_{11} & x_{12} & \cdots & x_{1i} & \cdots \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots & \cdots \\ \hline X_p & x_{p1} & x_{p2} & \cdots & x_{pi} & \cdots \\ \hline Y & y_1 & y_2 & \cdots & y_i & \cdots \\ \hline \end{array}$
  - $X_1=x_{1i}, \ldots, X_p=x_{pi}$ (elegidos por el investigador, o aleatorios)
  - $Y = y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi} + e_i$ donde $e_i$ es un muestreo del modelo $\text{N}(0, \sigma^2)$, independiente de los otros muestreos, e independiente de los valores que tomen las $X_1, \ldots, X_p$

4. Modelos de regresión no lineal a partir del modelo lineal

Se puede fabricar fórmulas no lineales (en $X$) a partir del modelo lineal (en las $\beta$’s).
El modelo lineal de $\log Y$ sobre $\log X$ da lugar a $\log Y \approx \beta_0 + \beta_1 \log X = \log(e^{\log \beta_0} X^{\beta_1})$, por tanto $Y \approx \gamma_0 X^{\gamma_1}$ (función potencial)
El modelo lineal de $\log Y$ sobre $X$ da lugar a $\log Y \approx \beta_0 + \beta_1 X$, por tanto $Y \approx e^{\beta_0 + \beta_1 X} = \gamma_0 \cdot \gamma_1^{X}$ (función exponencial)
El modelo lineal de $Y$ sobre $X$ y $X^2$ da lugar a $Y \approx \beta_0 + \beta_1 X + \beta_2 X^2$ (función polinómica de grado 2)
Se pueden usar más transformaciones de la $X$ y de la $Y$ (raíces, cuadrados, etc.)
Se pueden usar productos mixtos entre las variables independientes

5. El modelo de regresión lineal con R

5.1. Estimación de parámetros (ecuación de la función de regresión)

Función lm(formula, data):
Argumentos:
- formula: expresión del tipo y ~ x o y ~ x1 + x2 + ... + xp que indica qué variable (y) depende de cuáles (x o bien x1, x2, etc.)
- data: hoja de datos que contiene las columnas implicadas (o no poner nada si los datos están en vectores)
Devuelve: un objeto especial de tipo lista, con muchas componentes, entre otras:
- $coefficients: vector etiquetado con los parámetros $\hat{\beta}_0$, $\hat{\beta}_1$, etc.
- $fitted.values: $\hat{y}_i$, predicciones de $Y$ para los datos de la muestra
- $residuals: residuos en la muestra ($y_i - \hat{y}_i$, observadas menos predichas)
Si se trata de una recta de regresión se puede representar gráficamente junto a los datos, mediante abline(obj), donde obj es el objeto devuelto por lm()

5.2. Predicción de $Y$ y estimación de $E(Y)$, con intervalos de confianza

Función predict(obj, newdata, interval):
Argumentos:
- obj: objeto devuelto por la función lm()
- newdata: hoja de datos que contiene columnas etiquetadas como se usan en la función lm(). Por ejemplo, data.frame(x=5) o bien data.frame(x1=5, x2=3)
- interval: por defecto no lo calcula. Poner confidence (para el intervalo de confianza para la esperanza de $Y$) o bien prediction (para el intervalo de confianza para la predicción de $Y$)
Devuelve: un vector etiquetado, con las predicciones realizadas, y los intervalos de confianza (si se han pedido)

5.3. Intervalos de confianza para los parámetros $\beta$’s

Función confint(obj, level):
Argumentos:
- obj: objeto devuelto por la función lm()
- level: nivel de confianza
Devuelve: una matriz con cada fila correspondiente a un parámetro

5.4. ¿$\beta_i = 0$? Contrastes de hipótesis sobre la presunta nulidad de los parámetros

Se proporcionan los $p$-valores de los contrastes $\left\{ \begin{array}{rl} H_0: & \beta_i = 0 \\ H_1: & \beta_i \neq 0 \end{array} \right.$ para decidir si excluir variables del modelo por no intervenir en el valor de $Y$
Función summary(obj):
Argumento: obj: el objeto devuelto por la función lm()
Devuelve: por pantalla, entre otras informaciones, una tabla con una fila para cada parámetro ($\beta_0 =$ (Intercept), etc.), y una primera columna con la estimación, y la última con el $p$-valor

5.5. Bondad de ajuste y adecuación del modelo

El coeficiente $R^2$ mide la bondad del ajuste (mejor cuanto más cercano a $1.00$), pero no justifica, por sí solo, el uso del modelo lineal
Se debe comprobar las hipótesis el modelo:
- Normalidad: errores siguen modelo normal
- Homoscedasticidad: errores tienen misma varianza
- Independencia: errores independientes entre sí, y también de los valores de las $X$’s
$R^2$:
- Función summary(obj):
- Argumento: obj: objeto devuelto por la función lm()
- Devuelve: por pantalla, entre otras informaciones, dos versiones del coeficiente R-cuadrado:
  - Multiple R-squared: adecuado para la regresión lineal
  - Adjusted R-squared: adecuado para la regresión múltiple
Adecuación del modelo: se inspecciona gráficamente
- Función plot(x):
- Argumento: x: objeto devuelto por la función lm()
- Devuelve: 4 figuras, de las que interpretamos dos:
  - Residuals versus Fitted: Residuos en función de valores predichos. Si el modelo lineal es adecuado, se espera una nube de residuos con forma de banda horizontal, sin grandes diferencias de izquierda a derecha
  - Normal Q-Q: gráfica de cuantiles de los residuos respecto de los teóricos bajo normalidad. Si el modelo lineal es adecuado, se espera una nube de puntos ceñida a la diagonal

6. Ejercicios de evaluación

Problema 1: Completa el código para realizar lo siguiente:

Define una hoja de datos con 500 datos del modelo de regresión lineal $Y = 60.5 + 32.1X + N(\mu=0,\sigma^2=2.5)$, donde $X$ son datos del modelo uniforme entre $0.0$ y $3.0$. Usa una semilla para que salga simepre lo mismo
Realiza la recta de regresión de $Y$ sobre $X$
Representa los datos, la recta de regresión, y la “verdadera recta” en el mismo plano
Calcula la $R^2$ para estos datos
Representa las dos gráficas que sirven para justificar la adecuación del modelo, y comenta en función de lo observado en ellas

# CAMBIA EL PARÁMETRO eval DE ESTE BLOQUE A TRUE PARA COMPILAR !
# 1er apartado
set.seed(???)            # poner semilla
xi = runif(500, 0, 3)    # 500 muestreos de la X
ei =                     # 500 muestreos del error (normal)
yi =                     # valores de Y a partir de la fórmula del modelo
xx = data.frame(X=xi, Y=yi) # muestra conjunta (en hoja de datos)
# 2o apartado
recta = lm(formula=, data=) # pedir regresión
# 3er apartado
plot(???)   # muestra en gráfica
abline(???) # recta de regresión
abline(a=???, b=???) # "verdadera" recta
# continuar con el resto

AQUÍ COMENTARIO SOBRE LA ADECUACIÓN DEL MODELO

Problema 2: Completa el código para realizar lo siguiente:

Define una hoja de datos con 500 datos del modelo $Y = 60.5 + 32.1X + U(-5,5)$, donde $X$ son datos del modelo uniforme entre $0.0$ y $3.0$. Usa una semilla para que salga simepre lo mismo
Realiza la recta de regresión de $Y$ sobre $X$
Representa los datos y la recta de regresión en el mismo plano
Calcula la $R^2$ para estos datos
Representa las dos gráficas que sirven para justificar la adecuación del modelo, y comenta en función de lo observado en ellas

# CAMBIA EL PARÁMETRO eval DE ESTE BLOQUE A TRUE PARA COMPILAR !
# 1er apartado
set.seed(???)            # poner semilla
xi = runif(500, 0, 3)    # 500 muestreos de la X
ei =                     # 500 muestreos del error (uniforme)
yi =                     # valores de Y a partir de la fórmula del modelo
xx = data.frame(X=xi, Y=yi) # muestra conjunta (en hoja de datos)
# 2o apartado
recta = lm(formula=, data=) # pedir regresión
# 3er apartado
plot(???)   # muestra en gráfica
abline(???) # recta de regresión
# continuar con el resto

AQUÍ COMENTARIO SOBRE LA ADECUACIÓN DEL MODELO

Problema 3: Usando los datos mtcars, haz el estudio de la regresión de mpg sobre el resto de variables (todas). Suprime “secuencialmente” las variables que no parecen influir sobre mpg (por orden de mayor $p$-valor), hasta obtener un modelo final con menos variables y una bondad de ajuste suficiente.

data(mtcars)
# aquí tu código

AQUÍ TUS COMENTARIOS

Problema 4: Usando los datos mtcars, haz el estudio de la regresión de mpg sobre la potencia (hp) y el peso (wt), y compáralo con la regresión de mpg sobre la potencia (hp), el peso (wt) y el producto de ambos. ¿Cuál de los dos modelos parece ser más adecuado?

# aquí tu código

AQUÍ TUS COMENTARIOS

Problema 5: Usando los datos women, que almacena promedios de pesos de mujeres americanas con alturas determinadas.

Realiza el gráfico de peso vs altura e indica si la relación lineal parece razonable o sospechosamente descabellada.
Escribe la ecuación de la recta de regresión que ajusta los datos.
Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 5%, que el peso depende de la altura?
Escribe los intervalos de confianza al 99% para los verdaderos valores de la ordenada en el origen (intercept) y la pendiente.
Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 95%, que la verdadera ordenada en el origen (intercept) vale 0?
Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 95%, que la ordenada en el origen vale -100? (Ayuda: haz el IC.)
Aporta un indicador de la bondad del ajuste de los datos a la recta e interprétalo.
Pronostica el peso (en libras) de una mujer de 74 pulgadas, y acompáñalo con un intervalo de confianza al 80%.
¿Los datos son incompatibles con las hipótesis del modelo de regresión lineal? Usa los dos gráficos habituales, y realiza también el gráfico de los residuos vs la variable independiente. Interprétalos todos.

# aquí tu código

AQUÍ TUS COMENTARIOS

Problema 6: Supongamos que se pretende analizar el efecto de un medicamento sobre el nivel de colesterol en sangre. Se experimenta con pacientes de características muy similares, administrando distintas dosis del medicamento a cada uno. Usa el modelo de regresión lineal múltiple para ajustar los datos del fichero colesterol.txt a un modelo polinómico de hasta grado 4.

Representa la nube de puntos de los datos.
Escribe la ecuación del polinomio de regresión de grado 4 por mínimos cuadrados.
Según los datos y usando una significación del 5%, ¿se puede admitir que el polinomio de la regresión no alcanza el grado máximo, y que por tanto se puede buscar un grado menor? ¿Por qué?
Repite el apartado 1, bajando el grado del polinomio, mientras el apartado 2 siga teniendo respuesta afirmativa.
Una vez encontrado el grado para el que no hay argumentos estadísticos que permitan “bajar”, realiza la predicción del posible valor de Y para X = “últimas dos cifras de tu DNI”, y escribe el intervalo de confianza al 90% para dicha predicción.
Copia las gráficas que permiten evaluar la adecuación del modelo de regresión lineal, e interprétalas.

# aquí tu código

AQUÍ TUS COMENTARIOS

Práctica 2: El modelo de regresión lineal

Pablo Gregori - Universitat Jaume I de Castellón

MT1021 Ampliación de Estadística e Investigación Operativa

1. Objetivo de los modelos de regresión

2. El modelo de regresión lineal simple

3. El modelo de regresión lineal múltiple

4. Modelos de regresión no lineal a partir del modelo lineal

5. El modelo de regresión lineal con R

5.1. Estimación de parámetros (ecuación de la función de regresión)

5.2. Predicción de \(Y\) y estimación de \(E(Y)\), con intervalos de confianza

5.3. Intervalos de confianza para los parámetros \(\beta\)’s

5.4. ¿\(\beta_i = 0\)? Contrastes de hipótesis sobre la presunta nulidad de los parámetros

5.5. Bondad de ajuste y adecuación del modelo

6. Ejercicios de evaluación