0. Los datos de la práctica

Copia el siguiente bloque de código en la consola de R para cargar los datos de la práctica:

load(url('http://goo.gl/VBCKLE'))
load(url('http://goo.gl/qX6u1T'))

1. ¿DEPENDENCIA o INDEPENDENCIA?

Interesa investigar si una variable importante \(Y\) (numérica) puede depender o no de otras variables \(X_1\), \(X_2\), …, \(X_p\).
A \(Y\) se le dice variable DEPENDIENTE o de RESPUESTA o EXPLICADA. A \(X_1\), \(X_2\), etc. se les dice variables INDEPENDIENTEs o de CONTROL o EXPLICATIVAs
Ejemplos:
- ¿velocidad CPU depende de temperatura?
- ¿satisfacción cliente depende de marca de dispositivo?
- ¿velocidad bajada ADSL depende de hora del día?
Metodología: recoger datos conjuntamente de \(Y\) y \(X_1\), \(X_2\), …, \(X_p\), y analizarlos estadísticamente.
- Si las variables \(X_1\), \(X_2\), …, \(X_p\) son numéricas, se puede intentar encontrar una fórmula \(\widehat{Y}=f(X_1, X_2, ..., X_p)\) que intente aproximar los datos de la muestra (REGRESIÓN).
- Si las variables \(X_1\), \(X_2\), …, \(X_p\) son cualitativas, se puede intentar investigar si cada valor de las \(X\) altera el valor medio de \(Y\) (ANOVA).

2. EL MODELO DE REGRESIÓN LINEAL

Cuando hay sólo una variable independiente (\(p=1\)) se dice regresión SIMPLE y cuando hay más (\(p>1\)) regresión MÚLTIPLE.
El modelo de regresión lineal supone que existen unas constantes \(\beta_0\), \(\beta_1\), …, \(\beta_p\) (desconocidas) tales que el valor de \(Y\) depende de los valores de \(X_1\), \(X_2\),…,\(X_p\) de la forma:
- \(Y = \beta_0 + \beta_1 * X_1 + \beta_2 * X_2 + ... + \beta_p * X_p + ERROR\), donde \(ERROR\) es una variable aleatoria NORMAL de media 0 y varianza también desconocida.
En una situación real, es posible que se siga el modelo lineal, pero eso nunca se puede saber con certeza.
OBJETIVO: con una muestra se pretende:
- ESTIMAR la fórmula del modelo lineal \(\widehat{Y} = \widehat{\beta_0} + \widehat{\beta_1} * X_1 + \widehat{\beta_2} * X_2 + ... + \widehat{\beta_p} * X_p\), donde \(\widehat{\beta_0}\), \(\widehat{\beta_1}\), etc. son los coeficientes estimados (a dicha fórmula se le llama recta o hiperplano de regresión),,
- DECIDIR si el modelo lineal es compatible con la muestra, y en caso afirmativo,
- REALIZAR PREDICCIONES de \(Y\) a partir de valores concretos de las variables independientes \(X_1\), \(X_2\), …, \(X_p\).

2.1. ECUACIÓN DE LA REGRESIÓN

Supondremos que los datos de la variable dependiente (\(Y\)) vienen almacenados en un vector llamado y o en una columna etiquetada como y de una hoja de datos.
Mientras que los datos de las variables independientes (\(X_1\), \(X_2\), …) vienen almacenados en vectores llamados x1, x2, etc. o en columnas etiquetadas como x1, x2, etc. de la misma hoja de datos.
FUNCIÓN lm(formula, data)
- ARGUMENTOS:
  - formula: es una expresión de la forma y ~ x1 o bien y ~ x1+x2+...+xp, donde aparece la etiqueta o nombre de la variable dependiente, el símbolo ~, y la(s) etiqueta(s) o nombre(s) de la(s) variable(s) independiente(s), separadas por un signo + si hay más de una.
  - data: nombre de la hoja de datos con las variables en juego, o nada si los datos están en otros vectores.
- DEVUELVE: un objeto de una clase especial. Por pantalla muestra:
  - Coefficients:
    - Intercept (el término independiente, el \(\widehat{\beta_0}\)).
    - Bajo cada etiqueta: el \(\widehat{\beta_i}\) correspondiente.
- Con lo que se puede ESCRIBIR la ecuación de la recta o hiperplano de regresión lineal.

EJERCICIO 1: Escribe en la consola data(mtcars) y recuerda la explicación de los datos con help(mtcars). Tendrás definida la variable mtcars para realizar las siguientes tareas:

1.1. Suponiendo correcto el modelo lineal de la dependencia del consumo (mpg) sobre la cilindrada del motor (disp), escribe la ecuación de la recta de regresión usando todos los coches de los datos mtcars.
- Sol.: mpg = 29.59985 - 0.04122 * disp
1.2. Ahora lo mismo pero sólo con coches de 4 cilindros
- Sol.: mpg = 40.8720 - 0.1351 * disp
1.3. Ahora supongamos que se da el modelo lineal de dependencia del consumo (mpg) sobre la cilindrada del motor (disp) y el Peso del vehículo (wt). Obtén el hiperplano de regresión usando todos los coches
- Sol.: mpg = 34.96055 - 0.01772 * disp - 3.35083 * wt

FIN EJERCICIO 1

2.2. BONDAD DE AJUSTE DE LOS DATOS A LA RECTA O HIPERPLANO

Es el coeficiente R-cuadrado, pero hay dos versiones:
- En regresión simple se usa el Multiple R-squared
- En regresión múltiple se pueden usar los dos, pero es preferibles el Adjusted R-squared.
FUNCIÓN summary()
- Si se aplica al objeto resultante de lm(), muestra informaciones relacionadas. Entre ellas:
  - Resumen estadístico de los residuos (\(Y - \widehat{Y}\)),
  - Estimación de los coeficientes \(\widehat{\beta_i}\) con algo de inferencia,
  - Coeficientes R-cuadrado (múltiple y ajustado)

EJERCICIO 2: Calcula los coeficientes de bondad de ajuste (R-cuadrado) para la regresión de los ejercicios 1.1 y 1.3, ¿cuál es menor? ¿por qué?

FIN EJERCICIO 2:

EJERCICIO 3: Para los datos de la encuesta x, si el peso de un individuo está parcialmente explicado por su altura, analizamos la recta de regresión del peso sobre la altura.

3.1. Escribe la ecuación de la recta de regresión y calcula el coeficiente R-cuadrado de bondad de ajuste, cuando se usan los datos de TODOS los encuestados.
- Sol.: peso = -35.7440 + 0.6297 * altura, R-cuadrado = 0.05793 (muy bajo). si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -55.2999 + 0.7235 * altura, R-cuadrado = 0.3364 (también bajo, pero más normal).
3.2. Repite el ejercicio anterior pero restringiendo los datos a los encuestados que usan Windows como sistema operativo en PC.
- Sol.: peso = -43.9524 + 0.6811 * altura, R-cuadrado = 0.03592 (muy bajo) si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -90.8622 + 0.9224 * altura, R-cuadrado = 0.392 (también bajo, pero menos que antes).

FIN EJERCICIO 3

2.3. REPRESENTACIÓN GRÁFICA DATOS Y RECTA

En el caso de regresión lineal simple (2 dimensiones), se pueden representar los datos y la recta:

plot(...) aplicado a los datos, dibuja la nube de puntos de los datos.
abline(...) aplicado al resultado de lm(), dibuja la recta de regresión.

EJERCICIO 4:

4.1. Representa los datos del estudio de regresión del consumo sobre la cilindrada para todos los coches (ejercicio 1.1), junto a su recta de regresión.
4.2. Ahora representa los mismos datos diferenciando los puntos con colores por su número de cilindros (cyl) y las tres rectas de regresión, una para cada grupo de coches.

FIN EJERCICIO 4

2.4. PREDICCIONES

Una de las aplicaciones de la regresión es la predicción de la variable dependiente \(Y\) para nuevos valores de las variables independientes \(X_1\), \(X_2\), …, \(X_p\).
FUNCIÓN predict(object, newdata,...)
- ARGUMENTOS:
  - object: la variable R que guarda la regresión, resultado de lm().
  - newdata: hoja de datos con alguna columna cuya etiqueta coincida con la de la variable independiente. Si no hay, se debe crear de la forma data.frame(x1=..., x2=...,..., xp=...).
- DEVUELVE: un vector con las predicciones realizadas con la recta (o hiperplano) de regresión.
Ejemplo: predicción de consumo para un coche de 300 pulgadas cúbicas de cilindrada, usando la recta de regresión del consumo sobrela cilindrada, del ejercicio 1.1, para todos los coches.

recta = lm(formula=mpg~disp, data=mtcars)
predict(object=recta, newdata=data.frame(disp=300))

EJERCICIO 5: Haz la predicción de consumo para coches de 350 pulgadas cúbicas de cilindrada y de 4100 libras (4.1 miles de libras), usando el hiperplano de regresión del consumo sobre la cilindrada y el peso, del ejercicio 1.3, para todos los datos.

Sol.: 15.01851

FIN EJERCICIO 5

EJERCICIO 6: Predice el peso de alumnos de todas las alturas entre 165 y 185 cm usando la recta de regresión del peso sobre la altura para todos los individuos que usan Windows.

Sol.:

FIN EJERCICIO 6

2.5 DIAGNÓSTICO DEL MODELO (DECIDIR SI ES CREÍBLE O NO)

Se supone que \(Y = \beta_0 + \beta_1*X_1 + \beta_2*X_2 + ... + \beta_p*X_p + ERROR\), donde \(ERROR\) sigue modelo normal de media 0 y sus muestreos son independientes.
Con la muestra se calcula el hiperplano de regresión \(\widehat{Y} = \widehat{\beta_0} + \widehat{\beta_1} * X_1 + \widehat{\beta_2} * X_2 + ... + \widehat{\beta_p} * X_p\), que da lugar a \(\widehat{Y}\) (las predicciones de \(Y\) para cada \(X_1\),…).
Se espera que \(Y - \widehat{Y}\) (llamados residuos) se parezca a \(ERROR\), es decir:
- Que sigan el modelo normal
- Que su media sea 0 y su varianza siempre la misma, sea cual sea la zona de las \(X\)’s.
- Que sean independientes unos errores de otros.
Esto se visualiza con gráficos.
FUNCIÓN plot(x)
- ARGUMENTO: x: objeto de la regresión, resultado de lm().
- DEVUELVE 4 figuras:
  - Residuals vs Fitted (Residuos vs predicciones): si se cumple el modelo lineal se debe traducir en que no haya patrón de residuos a lo largo del eje x, ni en tendencia, ni en dispersión cambiante.
  - Normal Q-Q (cuantiles de los residuos tipificados vs cuantiles de la normal tipificada): si se cumple el modelo lineal, los puntos se deben ajustar “bastante” a la diagonal.
  - Scale-Location: no interpretamos.
  - Residuals vs Leverage: no interpretamos.
Hay que ser flexibles y descartar el modelo lineal sólo si es muy clamorosa la interpretación de alguna de esas dos figuras

EJERCICIO 7: Verifica si el modelo lineal parece razonable para el estudio de regresión del consumo sobre la cilindrada del ejercicio 1.1.

FIN EJERCICIO 7

EJERCICIO 8: Verifica si el modelo lineal parece razonable para el estudio de regresión del peso sobre la altura del ejercicio 3.1.

FIN EJERCICIO 8

3. ANÁLISIS DE VARIANZA (ANOVA)

A las variables \(X_1\), \(X_2\), etc. que son cualitativas (aunque sean números se tratarán como palabras) se les llama FACTORES, y a cada valor que puede tomar se le llama NIVEL.
Vamos a trabajar con un sólo factor \(X\)
El modelo ANOVA supone que para cada nivel \(x_i\) del factor \(X\), se tiene que \(Y = \mu_i + ERROR\), donde \(ERROR\) es una variable aleatoria NORMAL de media 0 y varianza desconocida, la misma para todos los niveles.
Es decir,
- si \(X=x_1\), entonces \(Y = \mu_1 + ERROR\)
- si \(X=x_2\), entonces \(Y = \mu_2 + ERROR\)
- si \(X=x_3\), entonces \(Y = \mu_3 + ERROR\)
- etc.
Los valores \(\mu_1\), \(\mu_2\), \(\mu_3\), etc. pueden ser iguales o distintos.
OBJETIVO:
- Comprobar si el factor \(X\) influye sobre el valor medio de \(Y\) o no, es decir,
- comprobar si se puede aceptar que:
  - \(H_0: \mu_1 = \mu_2 = \mu_3 = ...\) (es decir \(X\) no influye sobre \(Y\)), contra
  - \(H_1:\) no son todas iguales (es decir, \(X\) sí influyevsobre \(Y\))
Se trata de un contraste de hipótesis, que se resuelve históricamente con una tabla (llamada Tabla ANOVA), que conduce a calcular un estadístico \(F\), cuyo \(p\)-valor sirve para decidir.
RECUERDA: “Rechazar H0 si y sólo si \(p\)-valor < significación”
R resuelve todo esto como una potente calculadora

3.2. TABLA ANOVA Y DECISIÓN DEL CONTRASTE

Cálculos para decidir el contraste
- FUNCIÓN aov(formula, data)
  - ARGUMENTOS:
    - formula: expresión de la forma y ~ x, donde y contiene los datos de la variable \(Y\) y x los del factor X.
    - data: hoja de datos con las variables implicadas. Si se omite, se buscan entre los vectores definidos en R.
  - DEVUELVE: un resumen de la tabla ANOVA por pantalla, y un objeto de la clase aov (al que se le pueden aplicar otras funciones de interés).
- Tabla ANOVA:
  - FUNCIÓN summary( object ), donde object es el resultado de aov()
  - DEVUELVE: la tabla ANOVA por pantalla, en la que aparece el p-valor para decidir el contraste de hipótesis, bajo el símbolo Pr(F>).

3.3 DIAGNÓSTICO DEL MODELO (DECIDIR SI ES CREÍBLE O NO)

Para decidir si el modelo ANOVA es creíble para la muestra recogida, se realiza un diagnóstico gráfico, al igual que en el modelo de regresión lineal.
FUNCIÓN plot( object ), donde object es el resultado de aov().
DEVUELVE los mismo gráficos, y con la misma interpretación que en la sección 2.5
Si se decide que el modelo no es creíble, todo lo anterior (tabla ANOVA, contraste, etc.) y lo siguiente deja de tener sentido.

3.4. COMPARACIONES A POSTERIORI (método LSD de Fisher)

Si el contraste resulta aceptar \(H_0\) (igualdad de medias) entonces admitimos que el factor \(X\) NO influye sobre \(Y\).
Pero si resulta rechazar \(H_0\), entonces admitimos que hay niveles del factor \(X\) que dan lugar a mayores medias de \(Y\).
Las comparaciones a posteriori crean el ránking de niveles que dan medias de \(Y\) de mayor a menor, si es que se distinguen.
FUNCIÓN LSD.test(y, trt, alpha, console), del paquete agricolae, que se debe (instalar, si no lo esta, y) cargar con las opciones del menú de R.
- ARGUMENTOS:
  - y: objeto devuelto por la función aov().
  - trt: nombre (etiqueta entrecomillada) de la variable factor.
  - alpha: nivel de significación deseado (0.05 por defecto).
  - console: poner a TRUE para visualizar resultado.
- DEVUELVE: por pantalla,
  - Una tabla con los niveles del factor, las medias de la variable \(Y\) para cada nivel, el número de observaciones y el intervalo de confianza de los datos a dicho nivel;
  - Estadísticos varios,
  - LSD: valor de la mínima distancia significativa, y
  - Una tabla donde figuran los niveles por orden de media, y se codifican en grupos (a, b, etc.) según se separen por la LSD o no. Si un nivel no se puede separar del grupo anterior a ni del siguiente b, entonces forma parte de un grupo mixto ab, que no se puede separar de los anteriores, etc.

EJERCICIO 9: La variable tiempo se muestrea bajo distintos niveles del factor sist. Realiza un ANOVA con estos datos y contrasta si el tiempo depende del sistema, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking los sistemas, usando la misma significación.

Sol.: p-valor = 0.910310311908374 > alpha = 0.05, por tanto aceptar \(H_0\), por tanto \(\mu_W = \mu_L = \mu_M\), sist no afecta a tiempo, por tanto no procenden las “comparaciones a posteriori”.

FIN EJERCICIO 9

EJERCICIO 10: El precio de cierto dispositivo que se presenta en el mercado bajo tres marcas se muestrea en diversos comercios (variable “dispositivos”). Realiza un ANOVA con estos datos y contrasta si el precio medio de las marcas se puede considerar el mismo, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking las marcas, usando la misma significación. ¿Qué letra de orden le atribuye el LSD a la marca A?

Sol.: \(p\)-valor = 6.10814587034016e-22, por tanto rechazar \(H_0\), por tanto marca sí influye en precio, por tanto proceden comparaciones a posteriori, y a la marca A le atribuye la letra a.

FIN EJERCICIO 10

Práctica 5: Regresión lineal y Análisis de Varianza (ANOVA)

EI1012-MT1012 Estadística y Optimización (2015/2016)

Pablo Gregori, Universitat Jaume I de Castellón