Práctica 4: El modelo de regresión lineal

1. Objetivo de los modelos de regresión

PREDECIR el valor de una variable numérica $Y$ con la mayor fiabilidad posible
Siempre que se pueda ESCOGER antes una variable $X$ que “casi” determine el valor de $Y$, y que se pueda conocer antes de observar el valor de $Y$.
- $Y \approx f(X)$ para cierta función $f: \mathbb{R} \to \mathbb{R}$ (desconocida)
- $Y = f(X) + \text{ERROR}$, donde $\text{ERROR}$ es una cantidad aleatoria y “pequeña”
- A la función $f$ se le llama función de regresión
- Conocer la fórmula de $f$ permite predecir $Y$ a partir de $X$, con mucha menos incertidumbre
Ejemplo: predecir $Y$= “peso de un individuo”.
- Si se observa la población completa, se ve mucha dispersión (ver figura izquierda).
- Si se separa por $X$ = “altura”, se ve poca dispersión en cada altura (ver figura derecha)

2. El modelo de regresión lineal simple $Y = \beta_0 + \beta_1 X + \text{N}(0, \sigma^2)$

El modelo de regresión lineal simple de $Y$ sobre $X$, de parámetros $\beta_0$, $\beta_1$ y $\sigma^2$ se tiene cuando:
- $Y$ es variable numérica de interés
- $X$ es otra variable numérica
- En cada muestreo, por ejemplo, el $i$-ésimo:
  - $X=x_i$ (elegido por el investigador, o aleatorio)
  - $Y = y_i = \beta_0 + \beta_1 x_i + e_i$ donde $e_i$ es un muestreo del modelo $\text{N}(0, \sigma^2)$, independiente de los otros muestreos, e independiente del valor que tome la $X$
- Al final se obtiene la muestra $\begin{array}{|c||c|c|c|} \hline X & x_1 & x_2 & \cdots & x_i & \cdots \\ \hline Y & y_1 & y_2 & \cdots & y_i & \cdots \\ \hline \end{array}$

3. El modelo de regresión lineal múltiple $Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \text{N}(0, \sigma^2)$

El modelo de regresión lineal múltiple de $Y$ sobre $(X_1, \ldots, X_p)$, de parámetros $\beta_0$, $\beta_1, \ldots, \beta_p$ y $\sigma^2$ se tiene cuando:
- $Y$ es variable numérica de interés
- $X_1, \ldots, X_p$ son otras variables numéricas
- En cada muestreo, por ejemplo, el $i$-ésimo:
  - $X_1=x_{1i}$ (elegidos por el investigador, o aleatorios)
  - $\ldots$ (elegidos por el investigador, o aleatorios)
  - $X_p=x_{pi}$ (elegidos por el investigador, o aleatorios)
  - $Y = y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi} + e_i$ donde $e_i$ es un muestreo del modelo $\text{N}(0, \sigma^2)$, independiente de los otros muestreos, e independiente de los valores que tomen las $X_1, \ldots, X_p$
- Al final se obtiene la muestra $\begin{array}{|c||c|c|c|} \hline X_1 & x_{11} & x_{12} & \cdots & x_{1i} & \cdots \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots & \cdots \\ \hline X_p & x_{p1} & x_{p2} & \cdots & x_{pi} & \cdots \\ \hline Y & y_1 & y_2 & \cdots & y_i & \cdots \\ \hline \end{array}$

4. Modelos de regresión no lineal a partir del modelo lineal

Se pueden “fabricar” fórmulas no lineales (en las $X$’s) a partir del modelo lineal (en las $\beta$’s).
El modelo lineal de $\log Y$ sobre $\log X$ da lugar a:
- $\log Y \approx \beta_0 + \beta_1 \log X$
- $Y \approx e^{\beta_0 + \beta_1 \log X}$
- $Y \approx e^{\beta_0} e^{\beta_1 \log X}$
- $Y \approx e^{\beta_0} e^{\log X^{\beta_1}}$
- $Y \approx \gamma_0 X^{\beta_1}$ (función potencial) con $\gamma_0 = e^{\beta_0}$
El modelo lineal de $\log Y$ sobre $X$ da lugar a:
- $\log Y \approx \beta_0 + \beta_1 X$
- $Y \approx e^{\beta_0 + \beta_1 X}$
- $Y \approx e^{\beta_0} \cdot e^{\beta_1 X}$
- $Y \approx e^{\beta_0} \cdot (e^{\beta_1})^X$
- $Y \approx \gamma_0 \cdot \gamma_1^{X}$ (función exponencial)
El modelo lineal (múltiple) de $Y$ sobre $X$ y $X^2$ da lugar a:
- $Y \approx \beta_0 + \beta_1 X + \beta_2 X^2$ (función polinómica de grado 2)
Se pueden usar más transformaciones de la $X$ y de la $Y$ (raíces, cuadrados, etc.)
Se pueden usar productos mixtos entre las variables independientes

5. El modelo de regresión lineal con R

5.1. Estimación de parámetros (ecuación de la función de regresión)

Función lm(formula, data):
Argumentos:
- formula: expresión del tipo y ~ x o y ~ x1 + x2 + ... + xp que indica qué variable (y) depende de cuáles (x o bien x1, x2, etc.)
- data: hoja de datos que contiene las columnas implicadas (o no poner nada si los datos están en vectores)
Devuelve: un objeto especial de tipo lista, con muchas componentes, entre otras:
- $coefficients: vector etiquetado con los parámetros $\hat{\beta}_0$, $\hat{\beta}_1$, etc. Con ellos se puede “escribir” la función de regresión $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$, etc.
- $fitted.values: $\hat{y}_i$, predicciones de $Y$ para los datos de la muestra
- $residuals: residuos en la muestra ($y_i - \hat{y}_i$, observadas menos predichas)
Gráfica de la recta de regresión: si es regresión SIMPLE, se puede dibujar la recta de regresión junto a los datos:
- Primero un plot(x, y) de los datos,
- Después abline(obj), donde obj es el objeto devuelto por lm().

5.2. Predicción de $Y$ y estimación de $E(Y)$, con sus intervalos de confianza

Función predict(obj, newdata, interval, level):
Argumentos:
- obj: objeto devuelto por la función lm()
- newdata: hoja de datos con valores de las variables independientes. Debe llevar columnas etiquetadas como las variables independientes usadas en la función lm(). Por ejemplo, data.frame(x=5) o bien data.frame(x1=5, x2=3)
- interval: por defecto no lo calcula.
  - Poner confidence (para el intervalo de confianza para el VALOR MEDIO de $Y$) o bien
  - prediction (para el intervalo de confianza para la PREDICCIÓN de $Y$)
- level: nivel de confianza del intervalo de confianza, si se ha pedido
Devuelve: un vector etiquetado, con las predicciones de $Y$ (que coinciden con las estimaciones de $E(Y)$), y los intervalos de confianza (si se han pedido)

5.3. Intervalos de confianza para los parámetros $\beta$’s del modelo

Función confint(obj, parm, level):
Argumentos:
- obj: objeto devuelto por la función lm()
- parm: nombres de los parámetros (omitir para que salgan todos)
- level: nivel de confianza
Devuelve: una matriz con cada fila correspondiente a un parámetro

5.4. ¿$\beta_i = 0$? Contrastes de hipótesis sobre la presunta nulidad de los parámetros (para “sacar” variables innecesarias del modelo lineal, que no afectan significativamente al valor de $Y$)

El contraste $\left\{ \begin{array}{rl} H_0: & \beta_i = 0 \\ H_1: & \beta_i \neq 0 \end{array} \right.$ permite decidir si excluir dicha variable del modelo (ya que si $\beta_i = 0$, la variable $X_i$ no produce cambios en $Y$, al estar multiplicada por $0$)
Función summary(obj):
Argumento: obj: el objeto devuelto por la función lm()
Devuelve: por pantalla, entre otras informaciones, una tabla con una fila para cada parámetro ($\beta_0 =$ (Intercept), etc.), y una primera columna con la estimación, y la última columna con el $p$-valor de cada contraste.

5.5. Bondad de ajuste

El coeficiente R-cuadrado mide la bondad del ajuste del modelo lineal a la nube de puntos, pero HAY DOS VERSIONES:
- Multiple R-squared: el original, denotado por $R^2$
  - Su valor está siempre entre $0$ y $1$.
  - A mayor valor, mejor ajuste
  - Se usa con regresión SIMPLE.
- Adjusted R-squared: el ajustado, denotado por $\overline{R}^2$
  - Su valor NO SIEMPRE está entre $0$ y $1$.
  - A mayor valor, mejor ajuste
  - Se usa más con regresión MÚLTIPLE, porque permite comparar la bondad de ajuste de modelos con distinta camtidad de variables independientes.
Recuerda que una bondad de ajuste “alta” no significa que los datos sigan el patrón del modelo lineal

5.6. Adecuación del modelo

Una vez ajustado el modelo, es imprescindible verificar que los datos siguen el patrón del modelo lineal.
- Normalidad: errores siguen modelo normal
- Homocedasticidad: errores tienen misma varianza
- Independencia: errores independientes entre sí, y también de los valores de las $X$’s
Se suele resolver gráficamente:
- Función plot(x):
- Argumento: x: objeto devuelto por la función lm()
- Devuelve: 4 figuras, de las que interpretamos dos:
  - Residuals versus Fitted: Residuos en función de valores predichos. Si el modelo lineal es adecuado, se espera una nube de residuos, de izquierda a derecha, en torno a una banda horizontal a nivel $0$:
    - siguiendo un patrón aleatorio (eso sería la independencia),
    - sin grandes diferencias de amplitud vertical (eso sería la homocedasticidad)
  - Normal Q-Q: gráfica de cuantiles (de los residuos, respecto de los cuantiles teóricos bajo normalidad). Si el modelo lineal es adecuado, se espera una nube de puntos ceñida a la diagonal (eso sería la normalidad)

6. Ejercicios de evaluación

Problema 1 (25%)

Usando los datos women, que almacena promedios de pesos de mujeres americanas con alturas determinadas.

Realiza el gráfico de peso vs altura (peso en función de la altura) e indica si la relación lineal parece razonable o sospechosamente descabellada.

data(women) # esto carga los datos
# aquí tu código

AQUI TUS COMENTARIOS

Escribe la ecuación de la recta de regresión que ajusta los datos.

# aquí tu código

La ecuación de la recta de regresión es… CONTINUA AQUÍ

Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 5%, que el peso depende de la altura?

# aquí tu código

AQUI TUS COMENTARIOS

Escribe los intervalos de confianza al 99% para los verdaderos valores de la ordenada en el origen (intercept) y la pendiente.

# aquí tu código

AQUI TUS COMENTARIOS

Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 5%, que la verdadera ordenada en el origen (intercept) vale 0?

# aquí tu código

AQUI TUS COMENTARIOS

Suponiendo correcto el modelo lineal, ¿se puede rechazar, estadísticamente y usando una significación del 5%, que la ordenada en el origen vale -100? (Ayuda: haz el IC.)

# aquí tu código

AQUI TUS COMENTARIOS

Aporta un indicador de la bondad del ajuste de los datos a la recta e interprétalo.

# aquí tu código

AQUI TUS COMENTARIOS

Pronostica el peso (en libras) de una mujer de 74 pulgadas, y acompáñalo con un intervalo de confianza al 80%.

# aquí tu código

AQUI TUS COMENTARIOS

¿Los datos son incompatibles con las hipótesis del modelo de regresión lineal? Usa los dos gráficos habituales, y comenta el cumplimiento o no de las tres hipótesis que necesita el modelo lineal.

# aquí tu código

AQUI TUS COMENTARIOS

Problema 2 (25%)

Usando los datos mtcars:

Escribe la ecuación de regresión de la columna mpg sobre todas las demás, y anota el valor de los dos coeficientes de bondad de ajuste.

data(mtcars) # esto carga tus datos
# aquí tu código

La ecuación es …. Los coeficientes de bondad de ajuste son $R^2$ = … y $\overline{R}^2$ = …

Repite el apartado anterior, QUITANDO LA VARIABLE INDEPENDIENTE que menos parece influir sobre mpg (es decir, aquella con MAYOR $p$-valor asociado), siempre que haya alguna con $p$-valor superior a $0.05$. Escribe la ecuación y los dos coeficientes de bondad de ajuste.

# aquí tu código

Quitamos la variable … y la ecuación es …. Los coeficientes de bondad de ajuste son $R^2$ = … y $\overline{R}^2$ = …

Repite el apartado anterior, QUITANDO LA VARIABLE INDEPENDIENTE, con MAYOR $p$-valor asociado, siempre que haya alguna con $p$-valor superior a $0.05$, y partiendo del modelo anterior. Escribe TODAS las ecuaciones que van saliendo, juntoa sus dos coeficientes de bondad de ajuste.

# aquí tu código

Quitamos la variable … y la ecuación es …. Los coeficientes de bondad de ajuste son $R^2$ = … y $\overline{R}^2$ = …

Repetir hasta que no haya p-valores mayores que 0.05

Problema 3 (25%)

Supongamos que se pretende analizar el efecto de un medicamento sobre el nivel de colesterol en sangre. Se experimenta con pacientes de características muy similares, administrando distintas dosis del medicamento a cada uno. Usa el modelo de regresión lineal múltiple para ajustar los datos del fichero colesterol.txt a un modelo polinómico de hasta grado 4.

Representa la nube de puntos de los datos.

x = read.table(file='colesterol.txt', header=TRUE)
# aquí tu código

AQUI TUS COMENTARIOS

Escribe la ecuación del polinomio de regresión de grado 4 por mínimos cuadrados.

# aquí tu código

AQUI TUS COMENTARIOS

Según los datos y usando una significación del 5%, ¿se puede admitir que el polinomio de la regresión no alcanza el grado máximo, y que por tanto se puede buscar un grado menor? ¿Por qué?

# aquí tu código

AQUI TUS COMENTARIOS

Repite el apartado 1, bajando el grado del polinomio, mientras el apartado 2 siga teniendo respuesta afirmativa.

# aquí tu código

AQUI TUS COMENTARIOS

Una vez encontrado el grado para el que no hay argumentos estadísticos que permitan “bajar”, realiza la predicción del posible valor de Y para X = “últimas dos cifras de tu DNI”, y escribe el intervalo de confianza al 90% para dicha predicción.

# aquí tu código

AQUI TUS COMENTARIOS

Copia las gráficas que permiten evaluar la adecuación del modelo de regresión lineal, e interprétalas.

# aquí tu código

AQUI TUS COMENTARIOS

Problema 4 (25%)

Completa el bloque de código de más abajo (modificando el parámetro eval=TRUE del bloque) para realizar lo siguiente:

Define una hoja de datos con 500 datos del modelo de regresión lineal $Y = 60.5 + 32.1X + N(\mu=0,\sigma^2=50)$, donde $X$ son datos del modelo uniforme entre $0.0$ y $3.0$. Usa una semilla para poder recompilar sin que cambien los datos.

# CAMBIA EL PARÁMETRO eval DE ESTE BLOQUE A TRUE PARA COMPILAR !
# completa lo que falta
set.seed(???)            # poner semilla
xi = runif(500, 0, 3)    # 500 muestreos de la X
ei =                     # 500 muestreos del error (normal)
yi =                     # valores de Y a partir de la fórmula del modelo
xx = data.frame(X=xi, Y=yi) # muestra conjunta (en hoja de datos)

Escribe la recta de regresión de $Y$ sobre $X$ estimada: $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$.

# CAMBIA EL PARÁMETRO eval DE ESTE BLOQUE A TRUE PARA COMPILAR !
# completa lo que falta
recta = lm(formula=, data=) # pedir regresión

La ecuación de la recta de regresión es …

Representa los datos $(X,Y)$, la recta de regresión, y la “verdadera recta” en el mismo plano.

# CAMBIA EL PARÁMETRO eval DE ESTE BLOQUE A TRUE PARA COMPILAR !
# completa lo que falta
plot(???)   # muestra en gráfica
abline(???, col='red') # recta de regresión
abline(a=???, b=???, col='green') # "verdadera" recta

Calcula la $R^2$ para estos datos.

# aquí tu código

$R^2$ = …

Representa las dos gráficas que sirven para justificar la adecuación del modelo, y comenta en función de lo observado en ellas.

# aquí tu código

AQUÍ TUS COMENTARIOS

Escribe el intervalo de confianza al 90% para la predicción de $Y$ cuando $X=2$.

# aquí tu código

AQUÍ TUS COMENTARIOS

Realiza 1000 simulaciones de Y para $X=2$, y calcula el porcentaje de dichas simulaciones que entran dentro del intervalo de confianza calculado en el apartado anterior.

# aquí tu código

AQUÍ TUS COMENTARIOS

Práctica 4: El modelo de regresión lineal

Pablo Gregori - Universitat Jaume I de Castellón

MT1021 Ampliación de Estadística e Investigación Operativa

1. Objetivo de los modelos de regresión

2. El modelo de regresión lineal simple \(Y = \beta_0 + \beta_1 X + \text{N}(0, \sigma^2)\)

3. El modelo de regresión lineal múltiple \(Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \text{N}(0, \sigma^2)\)

4. Modelos de regresión no lineal a partir del modelo lineal

5. El modelo de regresión lineal con R

5.1. Estimación de parámetros (ecuación de la función de regresión)

5.2. Predicción de \(Y\) y estimación de \(E(Y)\), con sus intervalos de confianza

5.3. Intervalos de confianza para los parámetros \(\beta\)’s del modelo

5.4. ¿\(\beta_i = 0\)? Contrastes de hipótesis sobre la presunta nulidad de los parámetros (para “sacar” variables innecesarias del modelo lineal, que no afectan significativamente al valor de \(Y\))

5.5. Bondad de ajuste

5.6. Adecuación del modelo

6. Ejercicios de evaluación

Problema 1 (25%)

Problema 2 (25%)

Problema 3 (25%)

Problema 4 (25%)