Pràctica 2: Contrastos d’hipòtesis estadístiques no paramètrics

1. CONTRASTOS D’HIPÒTESIS ESTADÍSTIQUES NO PARAMÈTRICS

En aquesta pràctica es repassen alguns contrastos d’hipòtesis no paramètrics d’una i dues poblacions

Bondat d’ajustament: Ji-quadrat de Pearson simple, Kolmogorov-Smirnov i Lilliefors
Aleatorietat
Quantils
Homogeneïtat: Ji-quadrat de Pearson i Kolmogorov-Smirnov
Comparació de dos processos (per preferència o valoració mediana)

“REBUTJAR \(H_0\) si \(p\)-valor \(< \alpha\)” és un procediment de contrast amb nivell de significació (menor o igual a) \(\alpha\).

1.1. Contrastos de bondad d’ajustament

Objectiu : Comprovar si un procés aleatori segueix (o s’ajusta) a un pressumpte model (o no).
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ segueix el pressumpte model } \mathcal{M} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Tres casos distints:
- Contrast Ji-quadrat de Pearson: el pressumpte model \(\mathcal{M}\) s’expressa com a taula de probabilitats \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array}\) i la mostra com a taula de freqüències \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array}\)
  - Es pot aplicar a variable continua si es talla abans en intervals i es calcula la probabilitat de cada interval.
  - En R: funció chisq.test(x,p) on:
    - x: freqüències de la mostra. És a dir c(\(n_1\),\(n_2\),...\(n_k\)).
    - p: probabilitats del model. És a dir c(\(p_1\),\(p_2\),...\(p_k\)).
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si ocorre.
- Contrast de Kolmogorov-Smirnov: el pressumpte model \(\mathcal{M}\) és de variable (numèrica) contínua i es coneix la funció de distribució \(F_0(x)\)
  - En R: funció ks.test(x,y,...) on:
    - x: mostra de dades
    - y: nom entrecomillat de la funció \(F_0\) (tal qual estiga programada en R, per exemple "punif", "pnorm", "pexp", etc.).
    - ...: paràmetres addicionals de la funció \(F_0\) (per exemple, mean i sd si es tracta de la normal, o rate si es tracta de l’exponencial, etc.)
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.
- Contrast de Kolmogorov-Smirnov-Lilliefors: el pressumpte model \(\mathcal{M}\) és la família normal completa
  - En R: funció lillie.test(x) (atenció! carregar el package nortest, i instalar-lo abans si no hi és disponible):
    - x: mostra de dades
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.

1.2. Contrast d’aleatorietat

Objectiu : Comprovar si un procés de mostreig “produeix” dades independents entre sí, o no.
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ produeix dades independents entre sí} \\ H_1: & \text{no } H_0 \end{array} \right.\)
En R: funció runs.test(x) (atenció! carregar el package tseries, i instalar-lo abans si no hi és disponible)::
- x: vector de signes (o amb dues úniques categories o números). Si no és disponible, cal fabricar-lo a partir de la mostra original (bé comparant cada dada amb la mediana de totes elles, o bé comparant cada dada amb l’anterior, si puja o baixa)
- Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- ¡ATENCIÓ!: runs.test()usa sempre l’aproximació normal, inclús quan no és acceptable (mostres amb més de 20 signes de cada tipus). Hauràs d’alertar si ocorre eixe cas.**

1.3. Contrast de quantils

Objectiu : Comprovar si el quantil d’ordre \(p\) d’un procés aleatori continua sent un pressumpte valor \(x_0\) (o ha canviat, pujat o baixat).
Contrast: \(\left\{\begin{array}{ll} H_0: & X_p = x_0 \\ H_1: & X_p \neq x_0 \text{ (o bien } X_p < x_0 \text{, o bien } X_p > x_0 \text{)} \end{array} \right.\)
En R: funció binom.test(x, n, p, alternative):
- x: quantitat de dades de la mostra inferiors o iguals a \(x_0\).
- n: quantitat total de dades en la mostra.
- p: ordre del quantil (per defecte \(0.5\), per a la mediana).
- alternative: direcció de \(H_1\) ("two.sided" per defecte per a \(\neq\), i atenció!, "less" per a \(>\), i "greater" per a \(<\)).
- Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

1.4. Contrastos d’homogeneïtat (o mateixa distribució)

Objectiu : Comprovar si dos o més processos segueixen (o s’ajusten) a la mateixa distribució o llei de probabilitat. Els processos es mostregen de forma independent.
Contrast: \(\left\{\begin{array}{ll} H_0: & X_1, X_2, \ldots, X_K \text{ segueixen el mateix model} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Dos casos distints:
- Contrast d’homogeneïtat Ji-quadrat de Pearson: les mostres ese resumeixen com taules de freqüències amb les mateixes categories. Es poden juntar com: \(\begin{array}{|l||c|c|c|} \hline \text{Muestra \ Categ.} x_i & x_1 & x_2 & \cdots & x_k \\ \hline X_1 & n_{11} & n_{12} & \cdots & n_{1k} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots \\ \hline X_K & n_{K1} & n_{K2} & \cdots & n_{Kk} \\ \hline \end{array}\)
  - En R: funció chisq.test(x,p) on:
    - x: matriu amb les taules de freqüències de les mostres. És a dir matrix(data=c(\(n_{11}\),\(n_{12}\),...,\(n_{Kk}\)), nrow=\(K\), byrow=TRUE). Recorda que la funció table() pot ajudar-te a obtindre les freqüències de cada mostra.
    - y: deixar NULL si x té la matriu amb les freqüències de les mostres. En cas contrari, y és la segona mostra, mentre que x ha de ser la primera mostra.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si ocorre.
- Contrast d’homogeneïtat de Kolmogorov-Smirnov: només per a 2 mostres de variable (numèrica) continua.
  - En R: funció ks.test(x, y) on:
    - x e y: dades de cada mostra.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si ocorre.

1.5. Contrast de comparació de dos processos (per preferència o valoració mediana)

Objectiu : comprovar si dos processos (\(X\) i \(Y\)) tenen una pressumpta mateixa valoració general (o no).
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ e } Y \text{ es valoren per IGUAL} \\ H_1: & Y \text{ es valora DISTINT, PITJOR o MILLOR que } X \end{array} \right.\)
Segons la forma de mostreig de les dades de \(X\) i \(Y\) es poden trobar tres situacions:
- Preferència (millor/pitjor): cada individu prova els dos processos i només indica quin dels dos prefereix
  - En R: funció binom.test(x, n, p, alternative):
    - x: recompte de preferències per \(Y\)
    - n: tamany de mostra
    - p: deixar per defecte (\(0.5\))
    - alternative: deixar per defecte ("two.sided") si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a "less" si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a "greater" si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- Valoracions emparellades: cada individu prova els dos processos i dóna una valoració numèrica de cadascun
  - En R: funció wilcox.test(x, y, alternative, paired):
    - x: valoracions del procés \(X\), o les restes de “\(Y\) menys \(X\)” (si no es fica res en l’argument y).
    - y: valoracions del procés \(Y\) (o res, si van les diferències en x).
    - paired: posar a TRUE (ja que per defecte està a FALSE).
    - alternative: deixar per defecte ("two.sided") si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a "less" si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a "greater" si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- Valoracions independents: cada individu prova només un procés i dóna la seua valoració numèrica d’eixe procés
  - En R: funció wilcox.test(x, y, alternative, paired):
    - x: valoracions del procés \(X\).
    - y: valoracions del procés \(Y\).
    - paired: deixar a FALSE (valor per defecte).
    - alternative: deixar per defecte (two.sided) si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a less si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a greater si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

2. EXERCICIS AVALUABLES DE CONTRASTOS

S’han de contestar responent a allò que es demana amb paraules relatives a l’enunciat (prohibit mencionar \(H_0\) o \(H_1\) en les respostes finals).

El següent bloc de codi carrega l’espai de treball mt1021-1920-labo-s2-tests-data.RData. En ell estan definides certes variables per a resoldre els exercicis

load("mt1021-1920-labo-s2-tests-data.RData")

2.1. Simula 50 dades d’un dau imperfecte definit per la taula

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

i després contrasta si eixa mostra és compatible amb un dau perfecte, comentant el resultat, referint al nivell de significació que es podria utilitzar. Usa alguna llavor per a la simulació.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R