- Carga el área de trabajo almacenada en el archivo
ei1012-1314-datos-encuesta.RData
- En ella se encuentran los datos de la encuesta que pasó el grupo a principio de curso en la hoja de datos
x
.
- Ver encuesta en AV porque se han simplificado las cabeceras y las respuestas para que encajen mejor en las tablas y gráficos que vamos a realizar.
- Carga también el área de trabajo
labo-s6.RData
con datos para los ejercicios de ANOVA.
1. ¿DEPENDE O NO DEPENDE?
- Interesa investigar si una variable (numérica) importante \(Y\) puede depender o no de otras variables \(X_1\), \(X_2\), …, \(X_p\).
- A \(Y\) se le dice variable dependiente o de respuesta o explicada
- A \(X_1\), \(X_2\), etc. se les dice variables independientes o de control o explicativas.
- Ejemplos:
- ¿velocidad CPU depende de temperatura, tensión, humedad relativa, etc.?
- ¿satisfacción cliente depende de precio, marca de dispositivo, tipo de producto, etc.?
- ¿velocidad bajada ADSL depende de proveedor, hora del día, distancia a nodo, etc.?
- Metodología: recoger datos conjuntos de \((X_1, X_2, \ldots, X_p, Y)\) y analizarlos estadísticamente.
- Si las variables \(X_1\), \(X_2\), …, \(X_p\):
- son numéricas, se puede intentar encontrar de qué forma depende \(Y\) de las \(X_1\), \(X_2\), etc., es decir, si hay una fórmula \(Y^*=f(X_1, X_2, ..., X_p)\) que aproxime lo suficiente el valor de \(Y\) (es decir, si \(Y-Y^*\) es pequeño)).
- son cualitativas, se puede investigar si el valor medio de \(Y\) varía o no al variar las \(X\).
2. CUANTIFICAR LA RELACIÓN ENTRE VARIABLES NUMÉRICAS: AJUSTE POR MÍNIMOS CUADRADOS
2.1. REGRESIÓN SIMPLE
- Sólo hay una variable independiente (\(X\)).
- Sean \((x_1, y_1)\), \((x_2, y_2)\),…, \((x_n, y_n)\) datos (numéricos) de un proceso en el que \(Y\) aparenta depender de \(X\).
- La dependencia puede presentar formas diversas (recta, parábola, exponencial, etc.).
- La mejor manera de intuir la forma es representar los datos (como nube de puntos).
- A la vista de los datos se elige el tipo de función más adecuado (lineal, polinomio, exponencial, potencial, etc.).
- Y por último se busca la función concreta que mejor aproxima la nube de puntos (método de los mínimos cuadrados): minimizar \(\sum_{i=1}^n (y_i - f(x_i))^2\)
- Recta de regresión: es la recta de mínimos cuadrados.
- En ocasiones, si no se ve una tendencia lineal entre los datos, se puede probar a usar los datos transformados con alguna operación matemática (logaritmo, inversa, raíz cuadrada, etc.), tanto para la variable dependiente como para la independiente.
2.2. REGRESIÓN MÚLTIPLE
- Los datos son del tipo \((x_{11}, x_{12}, \ldots, x_{1p}, y_1)\), \((x_{21}, x_{22}, \ldots, x_{2p}, y_2)\),…, \((x_{n1}, x_{n2}, \ldots, x_{np}, y_n)\).
- No se puede intuir la forma de la dependencia porque la representación gráfica de los datos tiene más dimensiones.
- El plano o hiperplano de regresión es el de mínimos cuadrados.
2.3. REGRESIÓN SIMPLE Y MÚLTIPLE EN R
2.3.1. LA ECUACIÓN DE LA RECTA O PLANO O HIPERPLANO
- La función que realiza el ajuste de la recta o plano o hiperplano de regresión es la función
lm()
.
- FUNCIÓN
lm(formula, data)
- ARGUMENTOS:
formula
: es una expresión de la forma y ~ x
o bien y ~ x1+x2+...+xp
, donde aparece la etiqueta o nombre de la variable dependiente, el sí?mbolo ~
, y la(s) etiqueta(s) o nombre(s) de la(s) variable(s) independiente(s), separadas por un signo +
si hay más de una.
data
: nombre de la hoja de datos con las variables en juego, o bien nada, si los datos están en vectores (y no en hoja de datos).
- DEVUELVE un objeto de una clase especial. Por pantalla muestra:
Coefficients
(columna Estimate
):
Intercept
: el término independiente.
- Bajo cada etiqueta: el coeficiente multiplicador correspondiente.
2.3.2. EL COEFICIENTE DE DETERMINACIÓN O BONDAD DE AJUSTE
- La función
summary()
aplicada al objeto resultante de lm()
ofrece información más completa. Entre otras cosas:
Multiple R-squared
: el coeficiente de determinación o bondad de ajuste, sirve para expresar qué parte (%) de la varianza de \(Y\) viene explicada por las variables independientes.
2.3.3. PREDICCIONES CON LA REGRESIÓN
- Una de las utilidades de un ajuste por regresión lineal con una bondad de ajuste elevada, es la predicción fiable de valores de \(Y\) para valores de las variables independientes (que se encuentren dentro o cerca del rango de valores de la muestra).
- Se trata, sencillamente, de sustituir los nuevos valores en la función de regresión y calcular la predicción de \(Y\).
- La función que realiza esta tarea es:
- FUNCIÓN
predict(obj, newdata)
- ARGUMENTOS:
obj
: es la variable que almacena el resultado de la función lm()
.
newdata
: debe ser una hoja de datos con columnas etiquetadas como los vectores o columnas de la hoja de datos que ha participado en la función lm()
.
- DEVUELVE un vector numerado, con las predicciones realizadas.
2.4. EJEMPLO
- Escribe
data(mtcars)
y representa los datos mediante un plot()
.
- Queremos ver cómo influyen las demás variables sobre la variable
mpg
(millas por galón, que es como el consumo, pero al revés).
- Por tanto
mpg
será la variable dependiente.
- ¿Qué variable parece influir de forma “más lineal” sobre
mpg
?
- Realiza el ajuste de regresión lineal simple y escribe la ecuación de la recta de regresión (o mínimos cuadrados): \(MPG =37.285126167342-5.34447157272267·WT\).
- Calcula el coeficiente de bondad de ajuste: \(0.7528\).
- Pronostica las millas por galón que recorrerá un coche de 3770 libras de peso (ojo a las unidades): \(17.1365\) millas por galón.
- Ahora realiza el ajuste de regresión lineal de la columna
mpg
en función del peso y la cilindrada (columna disp
) y escribe la ecuación del plano de regresión (o mínimos cuadrados): \(MPG =34.9605540362373-3.35082533334831·WT-0.0177247442728281·DISP\).
- Calcula el coeficiente de bondad de ajuste.
- Pronostica las millas por galón que recorrerá un coche de 3770 libras de peso (ojo a las unidades) y una cilindrada de 350.8 pulgadas cúbicas: \(17.1365\) millas por galón.
3. ANOVA: DEPENDENCIA DE UNA VARIABLE SOBRE UNO O VARIOS FACTORES
3.1. REQUISITOS PARA APLICAR ANOVA
- Los factores (variables independientes, \(X\) o \(X_1\), \(X_2\), etc.) deben tomar pocos valores distintos (3, 4, 5 categorías).
- Para cada valor de \(X\) o combinación de valores de \(X_1\), \(X_2\), etc., la variable respuesta \(Y\), debe ajustarse al modelo normal con:
- Media \(\mu\), que puede depender o no del valor de \(X\).
- Varianza \(\sigma^2\), que debe ser la misma sea cual sea el valor de \(X\).
- Estos requisitos no se pueden comprobar a priori. Hace falta aplicar ANOVA para comprobarlos a posteriori.
3.2. OBJETIVO DEL ANOVA
- Detectar si las medias de \(Y\) asociada a cada nivel de \(X\) son todas iguales (en el fondo), o si hay algún nivel de \(X\) en el que la media de \(Y\) se desmarca de las demás.
- Esto es lo mismo que detectar si \(Y\) es o no independiente de \(X\).
3.3. TABLA ANOVA
- Descomponiendo la variabilidad total de \(Y\) en una parte que depende del factor \(X\) y otra parte residual, se construye una tabla (llamada Tabla ANOVA) que culmina con un estadístico \(F\) de Fisher–Snedecor y su \(p\)-valor, que es la referencia para decidir si:
- Creer que las medias son todas iguales (\(Y\) no dependería de \(X\))
- Creer que alguna media es distinta (\(Y\) dependería de \(X\)).
- La función que realiza los cálculos de ANOVA es:
- FUNCIÓN
aov(formula, data)
:
- ARGUMENTOS:
formula
: es una expresión de la forma y ~ x
o bien y ~ x1+x2+...+xp
, donde aparece la etiqueta o nombre de la variable dependiente, el símbolo ~
, y la(s) etiqueta(s) o nombre(s) de la(s) variable(s) independiente(s), separadas por un signo +
si hay más de una.
data
: nombre de la hoja de datos con las variables en juego, o bien nada, si los datos están en vectores (y no en hoja de datos).
- DEVUELVE un objeto de una clase especial. Por pantalla muestra cierta información, pero pediremos más.
- Tabla ANOVA: la realiza la función
summary()
, aplicada sobre el objeto creado con la función aov()
.
3.4. COMPROBACIÓN DE REQUISITOS
- Una vez aplicado ANOVA y estimados los valores de las medias de \(Y\), dos figuras nos ayudan a decidir si aparentemente se cumplen o no los requisitos para poder aplicar ANOVA.
- FUNCIÓN
plot()
.
- ARGUMENTO: el objeto resultante de aplicar la función
aov()
- DEVUELVE: 4 figuras de las que analizamos las dos primeras:
- Residuals vs fitted values: para admitir que se cumplen los requisitos de ANOVA, es necesario ver:
- Que la línea roja no marque ninguna tendencia (se mantenga “bastante” horizontal)
- Que los residuos de cada vertical mantengan una dispersión “similar”.
- Normal Q-Q: para admitir que se cumplen los requisitos de ANOVA, es necesario ver que los puntos no se alejan “mucho” de la diagonal.
- Es necesario que las dos figuras resulten favorables para decidir que el ANOVA era aplicable con los datos a los que se ha aplicado.
3.5. DECISIÓN DEL ANOVA
- Una vez comprobado que el ANOVA se puede realizar con los datos, se procede a decidir si:
- Creer que las medias son todas iguales (\(Y\) no dependeria de \(X\))
- Creer que alguna media es distinta (\(Y\) dependería de \(X\)).
- Nivel de significacion (\(\alpha\)): es un valor que establece el usuario, que indica la probabilidad tope de fallar en la decisión, cuando realmente \(Y\) no depende de \(X\). Suele ser habitualemente el 10%, 5%, 2.5% o 1%.
- El procedimiento de decisión es:
- Si \(p\)-valor \(> \alpha\), aceptar que las medias de \(Y\) son iguales para los niveles de \(X\) (y por tanto, que \(Y\) no depende de \(X\), o que \(X\) no influye sobre4 \(Y\)).
- Si \(p\)-valor \(< \alpha\), rechazar que las medias de \(Y\) son iguales para los niveles de \(X\) (y por tanto, que \(Y\) no depende de \(X\), o que \(X\) no influye sobre \(Y\)).
3.6. COMPARACIONES A POSTERIORI
- Cuando el ANOVA es aplicable y la decisión es:
- “\(Y\) no depende de \(X\)”, ya no hay nada más de demostrar. El factor \(X\) no influye sobre el valor de \(Y\).
- “\(Y\) sí depende de \(X\)”, tiene interés demostrar qué valores de \(X\) hacen que la media de \(Y\) sea mayor. Se puede hacer un ranking de niveles de \(X\). Es lo que se llama comparaciones a posteriori, que no haremos en esta práctica.
3.7. EJEMPLO
- La variable
tiempo
se muestrea bajo distintos niveles del factor sist
. Realiza un ANOVA con estos datos y contrasta si el tiempo depende del sistema, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking los sistemas, usando la misma significación
- Sol.: \(p\)-valor = 0.910310311908374 \(> \alpha = 0.05\), por tanto el tiempo no depende del sistema (o el sistema no afecta al tiempo) , y no proceden las comparaciones a posteriori.
- El precio de cierto dispositivo que se presenta en el mercado bajo tres marcas se muestrea en diversos comercios (variable
dispositivos
). Realiza un ANOVA con estos datos y contrasta si el precio medio de las marcas se puede considerar el mismo, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking las marcas, usando la misma significación.
- Sol.: \(p\)-valor \(= 6.10814587034016e-22\), por tanto creemos que el precio sí depende de la marca (o la marca sí influye en el precio), por tanto proceden comparaciones a posteriori.