1. Exemple motivador

EXEMPLE 1: Tres treballadors d’una cadena de muntatge van a comparar la seua efectivitat. S’arreplega el temps que tarda cada treballador en realitzar la seua tasca sobre les següents 10 unitats que pasen pel seu punt de la cadena.

A = c(4.44, 4.77, 6.56, 5.07, 5.13, 6.72, 5.46, 3.73, 4.31, 4.55)
B = c(6.22, 5.36, 5.40, 5.11, 4.44, 6.79, 5.50, 3.03, 5.70, 4.53)
C = c(3.93, 4.78, 3.97, 4.27, 4.37, 3.31, 5.84, 5.15, 3.86, 6.25)

Hem de decidir si hi ha algún treballador “més ràpid” o no. Per a açò valorem a cada ú amb el seu temps mitjà:

Treballador Temps mitjà
A 5.074
B 5.208
C 4.573

Per tant, el més ràpid ha estat el C.

Comparem gràficament els temps de cada treballador (dibuixem núvol de punts i diagrama de caixa superposats):

Es veu que els temps de cada treballador fluctuen, cadascun al voltant de la seua mitjana.

FIN EXEMPLE 1

EXEMPLE 2: Mateixa situació que a l’Exemple 1, pero amb altres tres treballadors distints.

D = c(5.01, 5.04, 5.22, 5.07, 5.08, 5.24, 5.11, 4.94, 5.00, 5.02)
E = c(5.18, 5.09, 5.09, 5.06, 5.00, 5.23, 5.10, 4.86, 5.12, 5.01)
F = c(4.51, 4.59, 4.51, 4.54, 4.55, 4.45, 4.70, 4.63, 4.50, 4.74)

De nou comparem la seua rapidessa usant els temps mitjans:

Treballador Temps mitjà
D 5.073
E 5.074
F 4.572

Per tant, el més ràpid ha estat el F.

Vegem ara les fluctuacions dels temps de cadacun al diagrama de caixa:

FIN EXEMPLE 2

CONCLUSIÓ: ES BUSCA TÈCNICA “OBJECTIVA” (JUSTIFICADA ESTADÍSTICAMENT) QUE PERMETA COMPARAR I DECIDIR SOBRE SI ELS PROMEDIS DE MÉS DE 2 POBLACIONS SÓN SIGNIFICATIVAMENT DISTINTS O NO (A PARTIR D’OBSERVAR MOSTRES D’ELLES). ÉS A DIR, QUE PERMETA DECIDIR ENTRE:

2. El model ANOVA d’un factor

El model ANOVA d’un factor involucra:

En l’exemple dels treballadors:

3. Objetius de l’ANOVA

4. El model ANOVA d’un factor amb R

4.1. Les dades

  • Les dades han de ser en dues variables (una per \(Y\) i altra per \(X\)). Poden ser:
    • Dues columnes d’un mateix full de dades
    • Dos vectors solts
  • De vegades hi ha diversos vectors amb dades de \(Y\), un vector “per cada nivell” del factor \(X\). En eixe cas cal construir dos vectors (ú per a totes les \(Y\)’s i altre per a totes les \(X\)’s):
    • El vector amb totes les dades de \(Y\): concatenar tots els vectors de dades
    • El vector amb totes les dades de \(X\): repetir “cada nivell” de \(X\) (número o paraula) tantes vegades com dades de \(Y\) associades a eixe nivell, i concatenar totes a la fi

4.2. La taula ANOVA i la decisió del contrast

  • És una taula que ajuda a calcular l’estadístic \(F\) i el seu \(p\)-valor per a decidir el contrast d’igualtat de mitjanes.
  • S’aconsegueix en dos pasos: primer aov() i després summary()
  • Funció aov( formula, data,... ):
    • Arguments:
      • formula: expressió de la forma y ~ x, que indica quin vector o columna fa de \(Y\) (la y) i quin fa de \(X\) (la x). El símbol ~ només serveix per a indicar que el símbol de l’esquerra és la variable dependent, i el de la dreta és el factor.
      • data: si les dades estan en dos vectors solts, no utilitzar. Si les dades están en dues columnes d’un full de dades, ficar el nom del full de dades.
    • Torna: un objecte tipus llista, i per pantalla, les sumes de quadrats (inter i intra) i els seus graus de llibertat, ademés de l’estimació (no esbiaixada) de \(\sigma\)
  • Funció summary(object):
    • Argument: object, l’objecte tornat per aov()
    • Torna: una llista amb una component en forma de full de dades, que conté la taula ANOVA, amb els grados de libertad (Df), les sumes de quadrats (Sum Sq) inter (amb el nom del factor) i intra (amb el nom Residuals), les mitjanes de quadrats (Mean Sq), el valor de l’estadístic de contrast (F), i el seu \(p\)-valor (Pr(>F)). Si es vol accedir al \(p\)-valor exacte, ficar summary(object)[[1]][1,5]
  • Decisió del contrast:
    • “Rebutjar \(H_0\) si \(p\)-valor \(< \alpha\)
    • Recorda:
      • Acceptar \(H_0\) significa…
        • Acceptar \(\mu_1 = \mu_2 = \cdots = \mu_a\), que és el mateix que
        • Acceptar que \(Y\) es comporta igual, siga quin siga el valor de \(X\), que és el mateix que
        • Acceptar que \(Y\) NO depén del factor \(X\), que és el mateix que
        • Acceptar que \(X\) no exerceix cap influència sobre \(Y\).
      • Rebutjar \(H_0\) significa…
        • El contrari de tot l’anterior
        • En aquest cas es motiva continuar l’anàlisi establint un rànking de nivells del factor \(X\) (veure secció 4.4)

4.3. Adequació del model ANOVA

  • Per a poder aplicar ANOVA i confiar en els seus resultats, les \(Y\)’s deuen complir les condicions del model ANOVA (errors “normals”, independents entre sí, independients del nivell del factor, i amb variància comuna en tots els nivells).
  • Aquesta tasca es sól realitzar intuitivament amb dues figures.
  • Funció plot(...) aplicada sobre l’objecte tornat per aov(), torna 4 figures, de les quals examinem:
    • Normal Q-Q (la segona): es relacionen els quantils teòrics de la normal amb els dels errors estimats.
      • Si els punts queden “a prop” de la diagonal, aleshores, aparentement, s’està complint la normalitat dels errors.
      • Si “prou” punts s’allunyen de la diagonal, aleshores, aparentement, està fallant la normalitat dels errors.
    • Residuals vs Factor Levels (la quarta): es pot apreciar tant si els errors tenen una “tendència” que els fa “no independents” (línia roja), como si la variància és comuna en tots els nivells o no (amplària vertical dels núvols de punts).
  • La igualtat de variàncies es pot contrastar de manera objectiva: contrast de Bartlett d’igualtat de variàncies
    • Funció bartlett.test(formula, data) o bé bartlett.test(x,...):
      • formula: la mateixa que en aov()
      • data: el mateix que aov()
      • x,...: els vectors amb les dades de \(Y\) per als diversos nivells del factor \(X\)
      • La hipòtesi nul.la és la igualtat de variàncies en tots els nivells

4.4. Comparacions a posteriori (pel mètode LSD de Fisher)

  • Si la taula ANOVA condueix a acceptar que \(Y\) no depén de \(X\), ja està tot fet.
  • En cas contrari, interessa conéixer quins nivells de \(X\) donen major mitjana de \(Y\). Fem un rànking dels nivells de \(X\).
  • Funció LSD.test(y, trt, alpha, console), pertanyent al paquet agricolae, que cal carregar (i instal.lar, si no ho està).
  • Arguments:
    • y: objecte tornat per la funció aov().
    • trt: nom (etiqueta entrecomillada) de la variable factor (la \(X\)).
    • alpha: nivell de significació desitjat (\(0.05\) per defecte).
    • console: ficar a TRUE si es vol veure en la R Console el resultat.
  • Torna: un objecte de tipus llista amb estadístics i taules,
    • Una taula amb els nivells del factor i, per a cadascun,
      • la mitjana de la variable \(Y\),
      • error estàndar,
      • nombre d’observaciones,
      • interval de confiança, etc.;
    • Estadístics varis;
    • LSD: valor de la mínima distància significativa, i
    • Taula amb
      • el ranking: codi (a, b, etc.) assignat per valor de mitjana,
      • nivell del factor,
      • mitjana de \(Y\) per a eixe nivell.
      • Pot aparéixer un nivell amb dos codis distints (quan no es pot distingir del nivell superior ni de l’inferior, però ambdós sí es distingeixen entre sí).

6. Exercicis avaluables

Carega l’espai de treball mt1021-1415-la-4-anova.RData, i en ell trobaràs les variables que necessites per als problemes.

# despeja esta linea cuando tengas l'archivo
#load("mt1021-1415-la-4-anova.RData")

Problema 1 (25%)

La variable tiempos recull els temps de realització d’una mateixa tasca informàtica de varis operadors (de característiques molt similars) baix 3 sistemes operatius, per a comparar sobre quin és més ràpida.

  1. Realitza un gràfic “senzill” del temps en funció del sistema operatiu, que visualitze la possible influència del sistema operatiu sobre el temps.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Calcula els temps mitjans baix cada sistema operatiu, i estableix un rànking de “rapidessa” basat en aquestos temps mitjans.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Aplica l’ANOVA per a demostrar o refutar que el temps mitjà depén del sistema operatiu. Què es pot dir usant un nivell de confiança del 5%?
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Comprova si és raonable aplicar ANOVA a aquestes dades, o si no es deuria aplicar. Figures i comentari.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. En cas afirmatiu, i si vas decidir que el sistema operatiu SÍ influïa en els temps mitjans, fes un nou ranking on es veja si hi ha diferències estadísticament significatives (al 5%) entre els sistemes operatius.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

Problema 2 (25%)

Les variables prodA, prodB, prodC i prodD recullen la producció (en milers d’unidades) de 4 líneas en les que s’apliquen mètodes distints (A, B, C i D) que es volen comparar.

  1. Realitza un gràfic “senzill” de la producció en funció del mètode, que visualitze la possible influència del mètode sobre la producció.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Calcula les produccions mitjanes baix cada mètode, i estableix un rànking de “productivitat”.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Aplica l’ANOVA per a demostrar o refutar que la productivitat mitjana depén del mètode. Què es pot decir usant un nivell de confiança del 1%?
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. Comprova si és raonable aplicar ANOVA a aquestes dades, o si no es deuria aplicar. Figures i comentari.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

  1. En cas afirmatiu, i si vas decidir que el mètode SÍ influïa en la productivitat mitjana, fes un nou ranking on es veja si hi ha diferències estadísticament significatives (al 1%) entre els mètodes.
# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

Problema 3 (25%)

Una assignatura té 5 grups de laboratori, amb un professor distint en cada grupo. Alumnes d’algun grup s’han queixat per creure que amb el seu professor, les notes són més baixes que en altres grups. Utilitza les dades labo de les notes per a saber què pot aportar l’estadística a aquest cas. Descriu el mateix esquema de treball dels exericicis anteriors.

# Escriu ací el codi R d'allò que es demana

I ELS TEUS COMENTARIS SI TAMBÉ ES DEMANEN

Problema 4 (25%)

  1. (75%) Programa simulacions del model ANOVA, i fica-les a prova amb la taula ANOVA, segons les següents instruccions.
  • Comença establint una llavor set.seed()
  • Crea un vector pvalor on vas a guardar 10000 p-valors de 10000 aplicacions de l’ANOVA, que faràs en un bucle for
  • \(X\) pren els nivells \(x_1\) = “baix” (20 mostrejos), \(x_2\) = “mig” (30 mostrejos) i \(x_3\) = “alt” (20 mostrejos)
  • Mostreig de \(Y\) (ací començaria el bucle):
    • Quan \(X\) = “baix”, simula 20 valors de \(Y\) del model \(N(\mu=5, \sigma^2=2)\)
    • Quan \(X\) = “mig”, simula 30 valors de \(Y\) del model \(N(\mu=5, \sigma^2=2)\)
    • Quan \(X\) = “alt”, simula 20 valors de \(Y\) del model \(N(\mu=5, \sigma^2=2)\)
    • Crea el full de dades amb les dades de \(X\) e \(Y\)
    • Aplica l’ANOVA a eixa mostra i guarda el \(p\)-valor al vector pvalor
  • Repeteix el procés 10000 vegades.
# ací la programació
  1. (25%) Contesta les següents preguntes:

2.1. En el model ANOVA programat, ¿\(Y\) depén de \(X\)? Perquè?

ACÍ LA TEUA RESPOSTA, NO VAL SI NO ES RAONA

2.2. Si hagueres usat una significació del 5% amb les 10000 mostres simuladas, ¿en quin percentatge d’elles t’hauria resultat “rebutjar que les mitjanes de \(Y\) són iguals”?