EJEMPLO 1: Tres trabajadores de una cadena de montaje van a comparar su efectividad. Se recoge el tiempo que tarda cada trabajador en realizar su tarea sobre las siguentes 10 unidades que pasan por su punto de la cadena.
A = c(4.44, 4.77, 6.56, 5.07, 5.13, 6.72, 5.46, 3.73, 4.31, 4.55)
B = c(6.22, 5.36, 5.40, 5.11, 4.44, 6.79, 5.50, 3.03, 5.70, 4.53)
C = c(3.93, 4.78, 3.97, 4.27, 4.37, 3.31, 5.84, 5.15, 3.86, 6.25)
Tenemos que decidir si hay algún trabajador “más rápido” o no. Para ello calculamos las medias de tiempo:
mean(A)
## [1] 5.074
mean(B)
## [1] 5.208
mean(C)
## [1] 4.573
Por lo tanto, el más rápido ha sido el C.
Pero se ve que los tiempos de cada trabajador fluctúan, por lo que tal vez, con otra muestra de los mismos trabajadores, el ganador podría haber sido otro, ¿o no? ¿De qué depende?
Para “ver” lo que fluctúan los tiempos de cada trabajador, lo mejor es un diagrama de caja, y mejor si los vemos todos juntos
boxplot(A, B, C)
Con el “ancho” de las cajas se aprecia lo que fluctúan los tiempos de cada trabajador, y se ve que otro muestreo podría haber resultado en otro ganador.
FIN EJEMPLO 1
EJEMPLO 2: Misma situación que en Ejemplo 1, pero con otros datos.
A = c(5.01, 5.04, 5.22, 5.07, 5.08, 5.24, 5.11, 4.94, 5.00, 5.02)
B = c(5.18, 5.09, 5.09, 5.06, 5.00, 5.23, 5.10, 4.86, 5.12, 5.01)
C = c(4.51, 4.59, 4.51, 4.54, 4.55, 4.45, 4.70, 4.63, 4.50, 4.74)
Tenemos que decidir si hay algún trabajador “más rápido” o no. Volvemos a calcular las medias de tiempo:
mean(A)
## [1] 5.073
mean(B)
## [1] 5.074
mean(C)
## [1] 4.572
Por lo tanto, el más rápido ha sido el C.
Pero se ve que los tiempos de cada trabajador fluctúan, por lo que tal vez, con otra muestra de los mismos trabajadores, el ganador podría haber sido otro, ¿o no? ¿De qué depende?
Para “ver” lo que fluctúan los tiempos de cada trabajador, lo mejor es un diagrama de caja, y mejor si los vemos todos juntos
boxplot(A, B, C)
Con el “ancho” de las cajas se aprecia lo que fluctúan los tiempos de cada trabajador, y se ve que los resultados “difícilmente” podrían haber cambiado al ganador.
FIN EJEMPLO 2
CONCLUSIÓN: Se busca “técnica objetiva y numéricamente justificada” que nos permita decidir si hay una muestra que sea “sustancialmente mejor” que otras en una comparación de más de 2 muestras.
EJERCICIO EVALUABLE 1: Ejecuta el bloque de código siguiente y contesta a las preguntas a continuación:
set.seed(123)
y1 = rnorm(10, 5, 1)
y2 = rnorm(10, 5, 1)
y3 = rnorm(10, 5, 1)
boxplot(y1, y2, y3)
En el bloque de código anterior, se han generado 30 datos numéricos aleatorios: 10 por la mañana (y1
), 10 por la tarde (y2
), y 10 por la noche (y3
). Se comparan las 3 muestras visualizado los 3 diagramas de caja comparativos.
FIN EJERCICIO EVALUABLE 1
El modelo ANOVA de un factor involucra:
En el ejemplo de los trabajadores:
aov()
, que lo hace casi todo, y summary()
, que te lo enseñaEJEMPLO 3: Partiendo de los vectores A
, B
y C
del EJEMPLO 1, construye un único vector con todos los tiempos (al que puedes llamar tiempos
) y otro vector “paralelo” que contenga la etiqueta del trabajador de cada tiempo (al que puedes llamar trabajador
).
FIN EJEMPLO 3
aov( formula, data,... )
data
: hoja de datos con columnas (o nada, si los datos van en vectores sueltos)formula
: expresión de la dependencia usando los nombres de los vectores o las etiquetas de las columnas, si van en hoja de datos: Y~X
(también se puede hacer ANOVA de dos y más factores, poniendo Y~X1+X2+...
los puntos suspensivos indican más factores si hay).Devuelve por pantalla las sumas de cuadrados (inter e intra) y sus grados de libertad, además de la estimación (insesgada) de \(\sigma\)
summary( obj,... )
obj
: objeto resultante de llamar a la función aov()
.Devuelve la típica tabla ANOVA, con los grados de libertad (Df
), las sumas de cuadrados (Sum Sq
) inter (con el nombre del factor) e intra (Residuals
), las medias de cuadrados (Mean Sq
), el valor del estadístico de contraste (F
), y su \(p\)-valor (Pr(>F)
), para decidir el contraste.
summary()
> Pr(>F)
y comparar con la significación \(\alpha\) para decidir.plot(...)
aplicada sobre el objeto devuelto por aov()
, devuelve varias figuras, entre las que:
Residuals vs Factor Levels
: se puede apreciar si la varianza de los errores es común en todos los niveles o no.
Normal Q-Q
: se relacionan los cuantiles teóricos de la normal con los de los errores estimados. Si se alejan “mucho” los puntos de la diagonal,LSD.test(y, trt, alpha, console)
, perteneciente al paquete agricolae
, que se debe cargar (e instalar si no lo está).y
: objeto devuelto por la función aov()
.trt
: nombre (etiqueta entrecomillada) de la variable factor.alpha
: nivel de significación deseado (\(0.05\) por defecto).console
: poner a TRUE si se quiere ver en la R Console el resultado.a
, b
, etc.) asignado por valor de media,Usa los datos de flores de R (carga con data(iris)
) para ver si cada una de las 4 dimensiones medidas se pueden diferenciar por la “especie” de flor o no. Realiza todos los pasos descritos, con comentarios.
Carga el espacio de trabajo mt1021-1415-la-4-anova.RData
, y en él encontrarás las variables que necesitas para los ejercicios.
EJERCICIO EVALUABLE 2: La variable tiempos
recoge los tiempos de realización de una misma tarea informática de varios operadores (de características muy similares) bajo 3 sistemas operativos, para comparar sobre cuál es más rápida.
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
FIN EJERCICIO EVALUABLE 2
EJERCICIO EVALUABLE 3: Las variables prodA
, prodB
, prodC
y prodD
recogen la producción (en miles de unidades) de 4 líneas en las que se aplican métodos distintos (A
, B
, C
y D
) que se quieren comparar.
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS, QUE TAMBIÉN SE PIDEN
FIN EJERCICIO EVALUABLE 3
EJERCICIO EVALUABLE 4: Una asignatura tiene 5 grupos de laboratorio, con un profesor distinto en cada grupo. Alumnos de algún grupo se han quejado por creer que con su profesor, las notas son más bajas que en otros grupos. Utiliza los datos labo
de las notas para saber qué puede aportar la estadistica a este caso. Describe el mismo esquema de trabajo de los ejericicios anteriores.
# Escribe aquí el codigo R de lo que se pide Y TUS COMENTARIOS, QUE TAMBIÉN SE PIDEN
FIN EJERCICIO EVALUABLE 4