1. CONTRASTOS D’HIPÒTESIS ESTADÍSTIQUES NO PARAMÈTRICS

En aquesta pràctica es repassen alguns contrastos d’hipòtesis no paramètrics d’una i dues poblacions

  1. Bondat d’ajustament: Ji-quadrat de Pearson simple, Kolmogorov-Smirnov i Lilliefors
  2. Aleatorietat
  3. Quantils
  4. Homogeneïtat: Ji-quadrat de Pearson i Kolmogorov-Smirnov
  5. Comparació de dos processos (per preferència o valoració mediana)

“REBUTJAR \(H_0\) si \(p\)-valor \(< \alpha\) és un procediment de contrast amb nivell de significació (menor o igual a) \(\alpha\).

1.1. Contrastos de bondad d’ajustament

  • Objectiu : Comprovar si un procés aleatori segueix (o s’ajusta) a un pressumpte model (o no).
  • Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ segueix el pressumpte model } \mathcal{M} \\ H_1: & \text{no } H_0 \end{array} \right.\)
  • Tres casos distints:
    • Contrast Ji-quadrat de Pearson: el pressumpte model \(\mathcal{M}\) s’expressa com a taula de probabilitats \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array}\) i la mostra com a taula de freqüències \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array}\)
      • Es pot aplicar a variable continua si es talla abans en intervals i es calcula la probabilitat de cada interval.
      • En R: funció chisq.test(x,p) on:
        • x: freqüències de la mostra. És a dir c(\(n_1\),\(n_2\),...\(n_k\)).
        • p: probabilitats del model. És a dir c(\(p_1\),\(p_2\),...\(p_k\)).
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
        • Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si ocorre.
    • Contrast de Kolmogorov-Smirnov: el pressumpte model \(\mathcal{M}\) és de variable (numèrica) contínua i es coneix la funció de distribució \(F_0(x)\)
      • En R: funció ks.test(x,y,...) on:
        • x: mostra de dades
        • y: nom entrecomillat de la funció \(F_0\) (tal qual estiga programada en R, per exemple "punif", "pnorm", "pexp", etc.).
        • ...: paràmetres addicionals de la funció \(F_0\) (per exemple, mean i sd si es tracta de la normal, o rate si es tracta de l’exponencial, etc.)
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
        • Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.
    • Contrast de Kolmogorov-Smirnov-Lilliefors: el pressumpte model \(\mathcal{M}\) és la família normal completa
      • En R: funció lillie.test(x) (atenció! carregar el package nortest, i instalar-lo abans si no hi és disponible):
        • x: mostra de dades
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
        • Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.

1.2. Contrast d’aleatorietat

  • Objectiu : Comprovar si un procés de mostreig “produeix” dades independents entre sí, o no.
  • Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ produeix dades independents entre sí} \\ H_1: & \text{no } H_0 \end{array} \right.\)
  • En R: funció runs.test(x) (atenció! carregar el package tseries, i instalar-lo abans si no hi és disponible)::
    • x: vector de signes (o amb dues úniques categories o números). Si no és disponible, cal fabricar-lo a partir de la mostra original (bé comparant cada dada amb la mediana de totes elles, o bé comparant cada dada amb l’anterior, si puja o baixa)
    • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    • ¡ATENCIÓ!: runs.test()usa sempre l’aproximació normal, inclús quan no és acceptable (mostres amb més de 20 signes de cada tipus). Hauràs d’alertar si ocorre eixe cas.**

1.3. Contrast de quantils

  • Objectiu : Comprovar si el quantil d’ordre \(p\) d’un procés aleatori continua sent un pressumpte valor \(x_0\) (o ha canviat, pujat o baixat).
  • Contrast: \(\left\{\begin{array}{ll} H_0: & X_p = x_0 \\ H_1: & X_p \neq x_0 \text{ (o bien } X_p < x_0 \text{, o bien } X_p > x_0 \text{)} \end{array} \right.\)
  • En R: funció binom.test(x, n, p, alternative):
    • x: quantitat de dades de la mostra inferiors o iguals a \(x_0\).
    • n: quantitat total de dades en la mostra.
    • p: ordre del quantil (per defecte \(0.5\), per a la mediana).
    • alternative: direcció de \(H_1\) ("two.sided" per defecte per a \(\neq\), i atenció!, "less" per a \(>\), i "greater" per a \(<\)).
    • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

1.4. Contrastos d’homogeneïtat (o mateixa distribució)

  • Objectiu : Comprovar si dos o més processos segueixen (o s’ajusten) a la mateixa distribució o llei de probabilitat. Els processos es mostregen de forma independent.
  • Contrast: \(\left\{\begin{array}{ll} H_0: & X_1, X_2, \ldots, X_K \text{ segueixen el mateix model} \\ H_1: & \text{no } H_0 \end{array} \right.\)
  • Dos casos distints:
    • Contrast d’homogeneïtat Ji-quadrat de Pearson: les mostres ese resumeixen com taules de freqüències amb les mateixes categories. Es poden juntar com: \(\begin{array}{|l||c|c|c|} \hline \text{Muestra \ Categ.} x_i & x_1 & x_2 & \cdots & x_k \\ \hline X_1 & n_{11} & n_{12} & \cdots & n_{1k} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots \\ \hline X_K & n_{K1} & n_{K2} & \cdots & n_{Kk} \\ \hline \end{array}\)
      • En R: funció chisq.test(x,p) on:
        • x: matriu amb les taules de freqüències de les mostres. És a dir matrix(data=c(\(n_{11}\),\(n_{12}\),...,\(n_{Kk}\)), nrow=\(K\), byrow=TRUE). Recorda que la funció table() pot ajudar-te a obtindre les freqüències de cada mostra.
        • y: deixar NULL si x té la matriu amb les freqüències de les mostres. En cas contrari, y és la segona mostra, mentre que x ha de ser la primera mostra.
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
        • Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si ocorre.
    • Contrast d’homogeneïtat de Kolmogorov-Smirnov: només per a 2 mostres de variable (numèrica) continua.
      • En R: funció ks.test(x, y) on:
        • x e y: dades de cada mostra.
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
        • Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.

1.5. Contrast de comparació de dos processos (per preferència o valoració mediana)

  • Objectiu : comprovar si dos processos (\(X\) i \(Y\)) tenen una pressumpta mateixa valoració general (o no).
  • Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ e } Y \text{ es valoren per IGUAL} \\ H_1: & Y \text{ es valora DISTINT, PITJOR o MILLOR que } X \end{array} \right.\)
  • Segons la forma de mostreig de les dades de \(X\) i \(Y\) es poden trobar tres situacions:
    • Preferència (millor/pitjor): cada individu prova els dos processos i només indica quin dels dos prefereix
      • En R: funció binom.test(x, n, p, alternative):
        • x: recompte de preferències per \(Y\)
        • n: tamany de mostra
        • p: deixar per defecte (\(0.5\))
        • alternative: deixar per defecte ("two.sided") si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a "less" si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a "greater" si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    • Valoracions emparellades: cada individu prova els dos processos i dóna una valoració numèrica de cadascun
      • En R: funció wilcox.test(x, y, alternative, paired):
        • x: valoracions del procés \(X\), o les restes de “\(Y\) menys \(X\)” (si no es fica res en l’argument y).
        • y: valoracions del procés \(Y\) (o res, si van les diferències en x).
        • paired: posar a TRUE (ja que per defecte està a FALSE).
        • alternative: deixar per defecte ("two.sided") si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a "less" si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a "greater" si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    • Valoracions independents: cada individu prova només un procés i dóna la seua valoració numèrica d’eixe procés
      • En R: funció wilcox.test(x, y, alternative, paired):
        • x: valoracions del procés \(X\).
        • y: valoracions del procés \(Y\).
        • paired: deixar a FALSE (valor per defecte).
        • alternative: deixar per defecte (two.sided) si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a less si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a greater si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
        • Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

2. EXERCICIS AVALUABLES DE CONTRASTOS

S’han de contestar responent a allò que es demana amb paraules relatives a l’enunciat (prohibit mencionar \(H_0\) o \(H_1\) en les respostes finals).

El següent bloc de codi carrega l’espai de treball mt1021-1920-labo-s2-tests-data.RData. En ell estan definides certes variables per a resoldre els exercicis

load("mt1021-1920-labo-s2-tests-data.RData")

2.1. Simula 50 dades d’un dau imperfecte definit per la taula

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

i després contrasta si eixa mostra és compatible amb un dau perfecte, comentant el resultat, referint al nivell de significació que es podria utilitzar. Usa alguna llavor per a la simulació.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.2. Simula 30 dades del model uniforme a l’intervalo (0,1) i després contrasta si eixa mostra és compatible amb el model normal de mitjana 0.5 i variància 0.25, comentant el resultat, referint al nivell de significació que es podria utilitzar. Usa alguna llavor per a la simulació.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.3. Contrasta si les dades de la variable normalsino són compatibles amb el model normal de mitjana 5 i varianza 1, comentant el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.4. En cas d’incompatibilitat a l’exercici anterior, es podria admetre al menys que les dades de la variable normalsino són compatibles amb el model normal? Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.5. Sospitant sobre la manca d’independència entre les observaciones succesives d’una variable aleatòria, se compara cada dada amb l’anterior, donant lloc a la cadena de signes de la variable signes. Realitza un contrast que done informació sobre este assumpte. Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.6. La mediana de la distribució de salaris en Espanya se suposava de 650 EUR. Se sospita que, amb la crisi, ha disminuït. Es mostreja la població resultant les dades de la variable salaris. Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.7. Contrasta si les distribucions d’usuaris de Windows, Linux i Mac són pràcticament les mateixes en els graus A, B, C i D de la UJI. Les dades, per a cada grau, venen en les variables soA, soB, soC i soD respectivament. Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.8. Contrasta si es pot assumir o no que les dades de dos grups de població A i B, mostrejats i guardades en les variables midesA i midesB, segueixen la mateixa distribució de probabilitat o no. Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.9. Un grup de persones prova dues versions de pizza barbacoa que l’empresa fabricant vol comercialitzar (A i B). Per tal de determinar si hi ha alguna de les dos que és molt més preferida sobre l’altra, en la població general, demana que cadascun es pronuncie sobre quina li ha agradat més. Els resultats estan en la variable barbacoa. La pizza A és la que es comercialitza actualment, i la B és una variant per a substituir la A, si és sensiblement millor per al públic. Què resulta de la prova experimental? Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.10. Un grup de persones prova dues versions d’una pizza quatre formatges que l’empresa fabricant vol comercialitzar (A i B). Per tal de determinar si hi ha alguna de les dos que és molt més preferida sobre l’altra, en la població general, demana que cadascun valore la seua qualitat de 0 a 10. Els resultats estan en la variable formatges. La pizza A és la que es comercialitza actualment, i la B és una variant per a substituir la A, si és sensiblement millor per al públic. Què resulta de la prova experimental? Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.11. Un grup de persones es divideix en dos subgrups, cadascun dels quals està destinat a provar una versió de pizza quatre estacions que l’empresa fabricant vol comercialitzar (A i B). Per tal de determinar si alguna de les dos serà més preferida en la població general, sobre l’altra, demana que cadascun valore la qualitat de 0 a 10. Els resultats estan en les variables estacionsA i estacionsB. La pizza A és la que es comercialitza actualment, i la B és una variant per a substituir a la A si és sensiblement millor per al públic. Què resulta de la prova experimental? Comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.12. Averigua si les dades de la variable poissonsino són compatibles amb el model de Poisson de mitjana 2.5, comentant el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R

Escriu ací els teus comentaris (i esborra aquesta frase!)

2.13. Les dades de la variable salaris s’havien obtingut ordenadament. Són compatibles amb un mostreig aleatori (amb independència entre mostreijos)? Aplica el contrast adequat, i comenta el resultat, referint al nivell de significació que es podria utilitzar.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R