EXEMPLE 1: Tres treballadors d’una cadena de muntatge van a comparar la seua efectivitat. S’arreplega el temps que tarda cada treballador en realitzar la seua tasca sobre les següents 10 unitats que pasen pel seu punt de la cadena.
A = c(4.44, 4.77, 6.56, 5.07, 5.13, 6.72, 5.46, 3.73, 4.31, 4.55)
B = c(6.22, 5.36, 5.40, 5.11, 4.44, 6.79, 5.50, 3.03, 5.70, 4.53)
C = c(3.93, 4.78, 3.97, 4.27, 4.37, 3.31, 5.84, 5.15, 3.86, 6.25)
Hem de decidir si hi ha algún treballador “més ràpid” o no. Per a açò valorem a cada ú amb el seu temps mitjà:
Treballador | Temps mitjà |
---|---|
A | 5.074 |
B | 5.208 |
C | 4.573 |
Per tant, el més ràpid ha estat el C.
Comparem gràficament els temps de cada treballador (dibuixem núvol de punts i diagrama de caixa superposats):
Es veu que els temps de cada treballador fluctuen, cadascun al voltant de la seua mitjana.
FIN EXEMPLE 1
EXEMPLE 2: Mateixa situació que a l’Exemple 1, pero amb altres tres treballadors distints.
D = c(5.01, 5.04, 5.22, 5.07, 5.08, 5.24, 5.11, 4.94, 5.00, 5.02)
E = c(5.18, 5.09, 5.09, 5.06, 5.00, 5.23, 5.10, 4.86, 5.12, 5.01)
F = c(4.51, 4.59, 4.51, 4.54, 4.55, 4.45, 4.70, 4.63, 4.50, 4.74)
De nou comparem la seua rapidessa usant els temps mitjans:
Treballador | Temps mitjà |
---|---|
D | 5.073 |
E | 5.074 |
F | 4.572 |
Per tant, el més ràpid ha estat el F.
Vegem ara les fluctuacions dels temps de cadacun al diagrama de caixa:
FIN EXEMPLE 2
CONCLUSIÓ: ES BUSCA TÈCNICA “OBJECTIVA” (JUSTIFICADA ESTADÍSTICAMENT) QUE PERMETA COMPARAR I DECIDIR SOBRE SI ELS PROMEDIS DE MÉS DE 2 POBLACIONS SÓN SIGNIFICATIVAMENT DISTINTS O NO (A PARTIR D’OBSERVAR MOSTRES D’ELLES). ÉS A DIR, QUE PERMETA DECIDIR ENTRE:
El model ANOVA d’un factor involucra:
En l’exemple dels treballadors:
a
, b
,…) que ayudan a detectar si les diferències entre nivells són estadísticamente significativas o noaov()
i després summary()
aov( formula, data,... )
:
formula
: expressió de la forma y ~ x
, que indica quin vector o columna fa de \(Y\) (la y
) i quin fa de \(X\) (la x
). El símbol ~
només serveix per a indicar que el símbol de l’esquerra és la variable dependent, i el de la dreta és el factor.data
: si les dades estan en dos vectors solts, no utilitzar. Si les dades están en dues columnes d’un full de dades, ficar el nom del full de dades.summary(object)
:
object
, l’objecte tornat per aov()
Df
), les sumes de quadrats (Sum Sq
) inter (amb el nom del factor) i intra (amb el nom Residuals
), les mitjanes de quadrats (Mean Sq
), el valor de l’estadístic de contrast (F
), i el seu \(p\)-valor (Pr(>F)
). Si es vol accedir al \(p\)-valor exacte, ficar summary(object)[[1]][1,5]
plot(...)
aplicada sobre l’objecte tornat per aov()
, torna 4 figures, de les quals examinem:
Normal Q-Q
(la segona): es relacionen els quantils teòrics de la normal amb els dels errors estimats.
Residuals vs Factor Levels
(la quarta): es pot apreciar tant si els errors tenen una “tendència” que els fa “no independents” (línia roja), como si la variància és comuna en tots els nivells o no (amplària vertical dels núvols de punts).bartlett.test(formula, data)
o bé bartlett.test(x,...)
:
formula
: la mateixa que en aov()
data
: el mateix que aov()
x,...
: els vectors amb les dades de \(Y\) per als diversos nivells del factor \(X\)LSD.test(y, trt, alpha, console)
, pertanyent al paquet agricolae
, que cal carregar (i instal.lar, si no ho està).y
: objecte tornat per la funció aov()
.trt
: nom (etiqueta entrecomillada) de la variable factor (la \(X\)).alpha
: nivell de significació desitjat (\(0.05\) per defecte).console
: ficar a TRUE si es vol veure en la R Console el resultat.a
, b
, etc.) assignat per valor de mitjana,Carega l’espai de treball mt1021-1415-la-4-anova.RData
, i en ell trobaràs les variables que necessites per als problemes.
# despeja esta linea cuando tengas l'archivo
#load("mt1021-1415-la-4-anova.RData")
La variable tiempos
recull els temps de realització d’una mateixa tasca informàtica de varis operadors (de característiques molt similars) baix 3 sistemes operatius, per a comparar sobre quin és més ràpida.
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
Les variables prodA
, prodB
, prodC
i prodD
recullen la producció (en milers d’unidades) de 4 líneas en les que s’apliquen mètodes distints (A
, B
, C
i D
) que es volen comparar.
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
Una assignatura té 5 grups de laboratori, amb un professor distint en cada grupo. Alumnes d’algun grup s’han queixat per creure que amb el seu professor, les notes són més baixes que en altres grups. Utilitza les dades labo
de les notes per a saber què pot aportar l’estadística a aquest cas. Descriu el mateix esquema de treball dels exericicis anteriors.
# Escriu ací el codi R d'allò que es demana
I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN
set.seed()
pvalor
on vas a guardar 10000 p-valors de 10000 aplicacions de l’ANOVA, que faràs en un bucle for
pvalor
# ací la programació
2.1. En el model ANOVA programat, ¿\(Y\) depén de \(X\)? Perquè?
ACÍ LA TEUA RESPOSTA, NO VAL SI NO ES RAONA
2.2. Si hagueres usat una significació del 5% amb les 10000 mostres simuladas, ¿en quin percentatge d’elles t’hauria resultat “rebutjar que les mitjanes de \(Y\) són iguals”?