EJEMPLO 1: Tres trabajadores de una cadena de montaje van a comparar su efectividad. Se recoge el tiempo que tarda cada trabajador en realizar su tarea sobre las siguentes 10 unidades que pasan por su punto de la cadena.
A = c(4.44, 4.77, 6.56, 5.07, 5.13, 6.72, 5.46, 3.73, 4.31, 4.55)
B = c(6.22, 5.36, 5.40, 5.11, 4.44, 6.79, 5.50, 3.03, 5.70, 4.53)
C = c(3.93, 4.78, 3.97, 4.27, 4.37, 3.31, 5.84, 5.15, 3.86, 6.25)
Tenemos que decidir si hay algún trabajador “más rápido” o no. Para ello valoramos a cada uno con su tiempo medio:
Trabajador | Tiempo medio |
---|---|
A | 5.074 |
B | 5.208 |
C | 4.573 |
Por lo tanto, el más rápido ha sido el C.
Comparemos gráficamente los tiempos de cada trabajador (dibujamos nube de puntos y diagrama de caja superpuestos):
Se ve que los tiempos de cada trabajador fluctúan, cada uno en torno a su media.
FIN EJEMPLO 1
EJEMPLO 2: Misma situación que en Ejemplo 1, pero con otros tres trabajadores distintos.
D = c(5.01, 5.04, 5.22, 5.07, 5.08, 5.24, 5.11, 4.94, 5.00, 5.02)
E = c(5.18, 5.09, 5.09, 5.06, 5.00, 5.23, 5.10, 4.86, 5.12, 5.01)
F = c(4.51, 4.59, 4.51, 4.54, 4.55, 4.45, 4.70, 4.63, 4.50, 4.74)
De nuevo comparamos su rapidez usando los tiempos medios:
Trabajador | Tiempo medio |
---|---|
D | 5.073 |
E | 5.074 |
F | 4.572 |
Por lo tanto, el más rápido ha sido el F.
Vemos ahora las fluctuaciones de los tiempos de cada uno en el diagrama de caja:
FIN EJEMPLO 2
CONCLUSIÓN: SE BUSCA TÉCNICA “OBJETIVA” (JUSTIFICADA ESTADÍSTICAMENTE) QUE PERMITA COMPARAR Y DECIDIR SOBRE SI LOS PROMEDIOS DE MÁS DE 2 POBLACIONES SON SIGNIFICATIVAMENTE DISTINTOS O NO (A PARTIR DE OBSERVAR MUESTRAS DE ELLAS). ES DECIR, QUE PERMITA DECIDIR ENTRE:
El modelo ANOVA de un factor involucra:
En el ejemplo de los trabajadores:
a
, b
,…) que ayudan a detectar si las diferencias entre niveles son estadísticamente significativas o noaov()
y luego summary()
aov( formula, data,... )
:
formula
: expresión de la forma y ~ x
, que indica qué vector o columna hace de \(Y\) (la y
) y cuál hace de \(X\) (la x
). El símbolo ~
sólo sirve parar indicar que el símbolo de su izquierda es la variable dependiente, y el de su derecha es el factor.data
: si los datos están en dos vectores suelto, no utilizar. Si los datos están en dos columnas de una hoja de datos, poner el nombre de la hoja de datos.summary(object)
:
object
, el objeto devuelto por aov()
Df
), las sumas de cuadrados (Sum Sq
) inter (con el nombre del factor) e intra (con el nombre Residuals
), las medias de cuadrados (Mean Sq
), el valor del estadístico de contraste (F
), y su \(p\)-valor (Pr(>F)
). Si se quiere acceder al \(p\)-valor exacto, poner summary(object)[[1]][1,5]
plot(...)
aplicada sobre el objeto devuelto por aov()
, devuelve 4 figuras, de las que examinamos:
Normal Q-Q
(la segunda): se relacionan los cuantiles teóricos de la normal con los de los errores estimados.
Residuals vs Factor Levels
(la cuarta): se puede apreciar tanto si los errores tienen una “tendencia” que los hace “no independientes” (línea roja), como si la varianza es común en todos los niveles o no (amplitud vertical de los puntos).bartlett.test(formula, data)
o bien bartlett.test(x,...)
:
formula
: la misma que en aov()
data
: el mismo que aov()
x,...
: los vectores con los datos de \(Y\) para los diversos niveles del factor \(X\)LSD.test(y, trt, alpha, console)
, perteneciente al paquete agricolae
, que se debe cargar (e instalar si no lo está).y
: objeto devuelto por la función aov()
.trt
: nombre (etiqueta entrecomillada) de la variable factor (la \(X\)).alpha
: nivel de significación deseado (\(0.05\) por defecto).console
: poner a TRUE si se quiere ver en la R Console el resultado.a
, b
, etc.) asignado por valor de media,Carga el espacio de trabajo mt1021-1415-la-4-anova.RData
, y en él encontrarás las variables que necesitas para los ejercicios.
# despeja esta linea cuando tengas el archivo
#load("mt1021-1415-la-4-anova.RData")
La variable tiempos
recoge los tiempos de realización de una misma tarea informática de varios operadores (de características muy similares) bajo 3 sistemas operativos, para comparar sobre cuál es más rápida.
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
Las variables prodA
, prodB
, prodC
y prodD
recogen la producción (en miles de unidades) de 4 líneas en las que se aplican métodos distintos (A
, B
, C
y D
) que se quieren comparar.
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
Una asignatura tiene 5 grupos de laboratorio, con un profesor distinto en cada grupo. Alumnos de algún grupo se han quejado por creer que con su profesor, las notas son más bajas que en otros grupos. Utiliza los datos labo
de las notas para saber qué puede aportar la estadistica a este caso. Describe el mismo esquema de trabajo de los ejericicios anteriores.
# Escribe aquí el codigo R de lo que se pide
Y TUS COMENTARIOS SI TAMBIÉN SE PIDEN
set.seed()
pvalor
donde vas a guardar 10000 p-valores de 10000 aplicaciones del ANOVA, que harás en un bucle for
pvalor
# aqui la programacion
2.1. En el modelo ANOVA programado, ¿\(Y\) depende de \(X\)? ¿Por qué?
AQUÍ TU RESPUESTA, NO VALE SI NO SE RAZONA
2.2. Si hubieras usado una significación del 5% con las 10000 muestras simuladas, ¿en qué porcentaje de ellas te habría resultado “rechazar que las medias de \(Y\) son iguales”?