0. Los datos de la práctica

load(url('http://goo.gl/VBCKLE'))
load(url('http://goo.gl/qX6u1T'))

1. ¿DEPENDENCIA o INDEPENDENCIA?

2. EL MODELO DE REGRESIÓN LINEAL

2.1. ECUACIÓN DE LA REGRESIÓN

  • Supondremos que los datos de la variable dependiente (\(Y\)) vienen almacenados en un vector llamado y o en una columna etiquetada como y de una hoja de datos.
  • Mientras que los datos de las variables independientes (\(X_1\), \(X_2\), …) vienen almacenados en vectores llamados x1, x2, etc. o en columnas etiquetadas como x1, x2, etc. de la misma hoja de datos.
  • FUNCIÓN lm(formula, data)
    • ARGUMENTOS:
      • formula: es una expresión de la forma y ~ x1 o bien y ~ x1+x2+...+xp, donde aparece la etiqueta o nombre de la variable dependiente, el símbolo ~, y la(s) etiqueta(s) o nombre(s) de la(s) variable(s) independiente(s), separadas por un signo + si hay más de una.
      • data: nombre de la hoja de datos con las variables en juego, o nada si los datos están en otros vectores.
    • DEVUELVE: un objeto de una clase especial. Por pantalla muestra:
      • Coefficients:
        • Intercept (el término independiente, el \(\widehat{\beta_0}\)).
        • Bajo cada etiqueta: el \(\widehat{\beta_i}\) correspondiente.
    • Con lo que se puede ESCRIBIR la ecuación de la recta o hiperplano de regresión lineal.

EJERCICIO 1: Escribe en la consola data(mtcars) y recuerda la explicación de los datos con help(mtcars). Tendrás definida la variable mtcars para realizar las siguientes tareas:

  • 1.1. Suponiendo correcto el modelo lineal de la dependencia del consumo (mpg) sobre la cilindrada del motor (disp), escribe la ecuación de la recta de regresión usando todos los coches de los datos mtcars.
    • Sol.: mpg = 29.59985 - 0.04122 * disp
  • 1.2. Ahora lo mismo pero sólo con coches de 4 cilindros
    • Sol.: mpg = 40.8720 - 0.1351 * disp
  • 1.3. Ahora supongamos que se da el modelo lineal de dependencia del consumo (mpg) sobre la cilindrada del motor (disp) y el Peso del vehículo (wt). Obtén el hiperplano de regresión usando todos los coches
    • Sol.: mpg = 34.96055 - 0.01772 * disp - 3.35083 * wt

FIN EJERCICIO 1

2.2. BONDAD DE AJUSTE DE LOS DATOS A LA RECTA O HIPERPLANO

  • Es el coeficiente R-cuadrado, pero hay dos versiones:
    • En regresión simple se usa el Multiple R-squared
    • En regresión múltiple se pueden usar los dos, pero es preferibles el Adjusted R-squared.
  • FUNCIÓN summary()
    • Si se aplica al objeto resultante de lm(), muestra informaciones relacionadas. Entre ellas:
      • Resumen estadístico de los residuos (\(Y - \widehat{Y}\)),
      • Estimación de los coeficientes \(\widehat{\beta_i}\) con algo de inferencia,
      • Coeficientes R-cuadrado (múltiple y ajustado)

EJERCICIO 2: Calcula los coeficientes de bondad de ajuste (R-cuadrado) para la regresión de los ejercicios 1.1 y 1.3, ¿cuál es menor? ¿por qué?

FIN EJERCICIO 2:

EJERCICIO 3: Para los datos de la encuesta x, si el peso de un individuo está parcialmente explicado por su altura, analizamos la recta de regresión del peso sobre la altura.

  • 3.1. Escribe la ecuación de la recta de regresión y calcula el coeficiente R-cuadrado de bondad de ajuste, cuando se usan los datos de TODOS los encuestados.
    • Sol.: peso = -35.7440 + 0.6297 * altura, R-cuadrado = 0.05793 (muy bajo). si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -55.2999 + 0.7235 * altura, R-cuadrado = 0.3364 (también bajo, pero más normal).
  • 3.2. Repite el ejercicio anterior pero restringiendo los datos a los encuestados que usan Windows como sistema operativo en PC.
    • Sol.: peso = -43.9524 + 0.6811 * altura, R-cuadrado = 0.03592 (muy bajo) si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -90.8622 + 0.9224 * altura, R-cuadrado = 0.392 (también bajo, pero menos que antes).

FIN EJERCICIO 3

2.3. REPRESENTACIÓN GRÁFICA DATOS Y RECTA

En el caso de regresión lineal simple (2 dimensiones), se pueden representar los datos y la recta:

  • plot(...) aplicado a los datos, dibuja la nube de puntos de los datos.
  • abline(...) aplicado al resultado de lm(), dibuja la recta de regresión.

EJERCICIO 4:

  • 4.1. Representa los datos del estudio de regresión del consumo sobre la cilindrada para todos los coches (ejercicio 1.1), junto a su recta de regresión.
  • 4.2. Ahora representa los mismos datos diferenciando los puntos con colores por su número de cilindros (cyl) y las tres rectas de regresión, una para cada grupo de coches.

FIN EJERCICIO 4

2.4. PREDICCIONES

  • Una de las aplicaciones de la regresión es la predicción de la variable dependiente \(Y\) para nuevos valores de las variables independientes \(X_1\), \(X_2\), …, \(X_p\).
  • FUNCIÓN predict(object, newdata,...)
    • ARGUMENTOS:
      • object: la variable R que guarda la regresión, resultado de lm().
      • newdata: hoja de datos con alguna columna cuya etiqueta coincida con la de la variable independiente. Si no hay, se debe crear de la forma data.frame(x1=..., x2=...,..., xp=...).
    • DEVUELVE: un vector con las predicciones realizadas con la recta (o hiperplano) de regresión.
  • Ejemplo: predicción de consumo para un coche de 300 pulgadas cúbicas de cilindrada, usando la recta de regresión del consumo sobrela cilindrada, del ejercicio 1.1, para todos los coches.
recta = lm(formula=mpg~disp, data=mtcars)
predict(object=recta, newdata=data.frame(disp=300))

EJERCICIO 5: Haz la predicción de consumo para coches de 350 pulgadas cúbicas de cilindrada y de 4100 libras (4.1 miles de libras), usando el hiperplano de regresión del consumo sobre la cilindrada y el peso, del ejercicio 1.3, para todos los datos.

  • Sol.: 15.01851

FIN EJERCICIO 5

EJERCICIO 6: Predice el peso de alumnos de todas las alturas entre 165 y 185 cm usando la recta de regresión del peso sobre la altura para todos los individuos que usan Windows.

  • Sol.:

FIN EJERCICIO 6

2.5 DIAGNÓSTICO DEL MODELO (DECIDIR SI ES CREÍBLE O NO)

  • Se supone que \(Y = \beta_0 + \beta_1*X_1 + \beta_2*X_2 + ... + \beta_p*X_p + ERROR\), donde \(ERROR\) sigue modelo normal de media 0 y sus muestreos son independientes.
  • Con la muestra se calcula el hiperplano de regresión \(\widehat{Y} = \widehat{\beta_0} + \widehat{\beta_1} * X_1 + \widehat{\beta_2} * X_2 + ... + \widehat{\beta_p} * X_p\), que da lugar a \(\widehat{Y}\) (las predicciones de \(Y\) para cada \(X_1\),…).
  • Se espera que \(Y - \widehat{Y}\) (llamados residuos) se parezca a \(ERROR\), es decir:
    • Que sigan el modelo normal
    • Que su media sea 0 y su varianza siempre la misma, sea cual sea la zona de las \(X\)’s.
    • Que sean independientes unos errores de otros.
  • Esto se visualiza con gráficos.
  • FUNCIÓN plot(x)
    • ARGUMENTO: x: objeto de la regresión, resultado de lm().
    • DEVUELVE 4 figuras:
      • Residuals vs Fitted (Residuos vs predicciones): si se cumple el modelo lineal se debe traducir en que no haya patrón de residuos a lo largo del eje x, ni en tendencia, ni en dispersión cambiante.
      • Normal Q-Q (cuantiles de los residuos tipificados vs cuantiles de la normal tipificada): si se cumple el modelo lineal, los puntos se deben ajustar “bastante” a la diagonal.
      • Scale-Location: no interpretamos.
      • Residuals vs Leverage: no interpretamos.
  • Hay que ser flexibles y descartar el modelo lineal sólo si es muy clamorosa la interpretación de alguna de esas dos figuras

EJERCICIO 7: Verifica si el modelo lineal parece razonable para el estudio de regresión del consumo sobre la cilindrada del ejercicio 1.1.

FIN EJERCICIO 7

EJERCICIO 8: Verifica si el modelo lineal parece razonable para el estudio de regresión del peso sobre la altura del ejercicio 3.1.

FIN EJERCICIO 8

3. ANÁLISIS DE VARIANZA (ANOVA)

3.2. TABLA ANOVA Y DECISIÓN DEL CONTRASTE

3.3 DIAGNÓSTICO DEL MODELO (DECIDIR SI ES CREÍBLE O NO)

3.4. COMPARACIONES A POSTERIORI (método LSD de Fisher)

EJERCICIO 9: La variable tiempo se muestrea bajo distintos niveles del factor sist. Realiza un ANOVA con estos datos y contrasta si el tiempo depende del sistema, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking los sistemas, usando la misma significación.

FIN EJERCICIO 9

EJERCICIO 10: El precio de cierto dispositivo que se presenta en el mercado bajo tres marcas se muestrea en diversos comercios (variable “dispositivos”). Realiza un ANOVA con estos datos y contrasta si el precio medio de las marcas se puede considerar el mismo, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking las marcas, usando la misma significación. ¿Qué letra de orden le atribuye el LSD a la marca A?

FIN EJERCICIO 10