load(url('http://goo.gl/VBCKLE'))
load(url('http://goo.gl/qX6u1T'))
y
o en una columna etiquetada como y
de una hoja de datos.x1
, x2
, etc. o en columnas etiquetadas como x1
, x2
, etc. de la misma hoja de datos.lm(formula, data)
formula
: es una expresión de la forma y ~ x1
o bien y ~ x1+x2+...+xp
, donde aparece la etiqueta o nombre de la variable dependiente, el símbolo ~
, y la(s) etiqueta(s) o nombre(s) de la(s) variable(s) independiente(s), separadas por un signo + si hay más de una.data
: nombre de la hoja de datos con las variables en juego, o nada si los datos están en otros vectores.Intercept
(el término independiente, el \(\widehat{\beta_0}\)).EJERCICIO 1: Escribe en la consola data(mtcars)
y recuerda la explicación de los datos con help(mtcars)
. Tendrás definida la variable mtcars
para realizar las siguientes tareas:
mpg
) sobre la cilindrada del motor (disp
), escribe la ecuación de la recta de regresión usando todos los coches de los datos mtcars
.
mpg = 29.59985 - 0.04122 * disp
mpg = 40.8720 - 0.1351 * disp
mpg
) sobre la cilindrada del motor (disp
) y el Peso del vehículo (wt
). Obtén el hiperplano de regresión usando todos los coches
mpg = 34.96055 - 0.01772 * disp - 3.35083 * wt
FIN EJERCICIO 1
Multiple R-squared
Adjusted R-squared
.summary()
lm()
, muestra informaciones relacionadas. Entre ellas:
EJERCICIO 2: Calcula los coeficientes de bondad de ajuste (R-cuadrado) para la regresión de los ejercicios 1.1 y 1.3, ¿cuál es menor? ¿por qué?
FIN EJERCICIO 2:
EJERCICIO 3: Para los datos de la encuesta x
, si el peso de un individuo está parcialmente explicado por su altura, analizamos la recta de regresión del peso sobre la altura.
peso = -35.7440 + 0.6297 * altura
, R-cuadrado = 0.05793 (muy bajo). si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -55.2999 + 0.7235 * altura
, R-cuadrado = 0.3364 (también bajo, pero más normal).peso = -43.9524 + 0.6811 * altura
, R-cuadrado = 0.03592 (muy bajo) si eliminamos al individuo que ha marcado un peso de 175kg sale peso = -90.8622 + 0.9224 * altura
, R-cuadrado = 0.392 (también bajo, pero menos que antes).FIN EJERCICIO 3
En el caso de regresión lineal simple (2 dimensiones), se pueden representar los datos y la recta:
plot(...)
aplicado a los datos, dibuja la nube de puntos de los datos.abline(...)
aplicado al resultado de lm()
, dibuja la recta de regresión.EJERCICIO 4:
cyl
) y las tres rectas de regresión, una para cada grupo de coches.FIN EJERCICIO 4
predict(object, newdata,...)
object
: la variable R que guarda la regresión, resultado de lm()
.newdata
: hoja de datos con alguna columna cuya etiqueta coincida con la de la variable independiente. Si no hay, se debe crear de la forma data.frame(x1=..., x2=...,..., xp=...)
.recta = lm(formula=mpg~disp, data=mtcars)
predict(object=recta, newdata=data.frame(disp=300))
EJERCICIO 5: Haz la predicción de consumo para coches de 350 pulgadas cúbicas de cilindrada y de 4100 libras (4.1 miles de libras), usando el hiperplano de regresión del consumo sobre la cilindrada y el peso, del ejercicio 1.3, para todos los datos.
FIN EJERCICIO 5
EJERCICIO 6: Predice el peso de alumnos de todas las alturas entre 165 y 185 cm usando la recta de regresión del peso sobre la altura para todos los individuos que usan Windows.
FIN EJERCICIO 6
plot(x)
x
: objeto de la regresión, resultado de lm()
.Residuals vs Fitted
(Residuos vs predicciones): si se cumple el modelo lineal se debe traducir en que no haya patrón de residuos a lo largo del eje x, ni en tendencia, ni en dispersión cambiante.Normal Q-Q
(cuantiles de los residuos tipificados vs cuantiles de la normal tipificada): si se cumple el modelo lineal, los puntos se deben ajustar “bastante” a la diagonal.Scale-Location
: no interpretamos.Residuals vs Leverage
: no interpretamos.EJERCICIO 7: Verifica si el modelo lineal parece razonable para el estudio de regresión del consumo sobre la cilindrada del ejercicio 1.1.
FIN EJERCICIO 7
EJERCICIO 8: Verifica si el modelo lineal parece razonable para el estudio de regresión del peso sobre la altura del ejercicio 3.1.
FIN EJERCICIO 8
aov(formula, data)
formula
: expresión de la forma y ~ x
, donde y contiene los datos de la variable \(Y\) y x los del factor X.data
: hoja de datos con las variables implicadas. Si se omite, se buscan entre los vectores definidos en R.aov
(al que se le pueden aplicar otras funciones de interés).summary( object )
, donde object es el resultado de aov()Pr(F>)
.plot( object )
, donde object es el resultado de aov()
.LSD.test(y, trt, alpha, console)
, del paquete agricolae
, que se debe (instalar, si no lo esta, y) cargar con las opciones del menú de R.
y
: objeto devuelto por la función aov().trt
: nombre (etiqueta entrecomillada) de la variable factor.alpha
: nivel de significación deseado (0.05 por defecto).console
: poner a TRUE para visualizar resultado.EJERCICIO 9: La variable tiempo se muestrea bajo distintos niveles del factor sist. Realiza un ANOVA con estos datos y contrasta si el tiempo depende del sistema, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking los sistemas, usando la misma significación.
sist
no afecta a tiempo
, por tanto no procenden las “comparaciones a posteriori”.FIN EJERCICIO 9
EJERCICIO 10: El precio de cierto dispositivo que se presenta en el mercado bajo tres marcas se muestrea en diversos comercios (variable “dispositivos”). Realiza un ANOVA con estos datos y contrasta si el precio medio de las marcas se puede considerar el mismo, o no, con una significación del 5 %, comprueba si se cumplen los requisitos para aplicar el ANOVA, y realiza comparaciones a posteriori, si procede, para poner en un ranking las marcas, usando la misma significación. ¿Qué letra de orden le atribuye el LSD a la marca A
?
A
le atribuye la letra a
.FIN EJERCICIO 10