Pràctica 2: Contrastos d’hipòtesis estadístiques no paramètrics i introducció a la programació en llenguatge R

1. CONTRASTOS D’HIPÒTESIS ESTADÍSTIQUES NO PARAMÈTRICS

En aquesta pràctica es repassen alguns contrastos d’hipòtesis no paramètrics d’una i dues poblacions

Bondat d’ajustament: Ji-quadrat de Pearson simple, Kolmogorov-Smirnov i Lilliefors
Aleatorietat
Quantils
Homogeneïtat: Ji-quadrat de Pearson i Kolmogorov-Smirnov
Comparació de dos processos (per preferència o valoració mediana)

Recorda que per a tindre un nivell de significació, com a molt, \(\alpha\), s’ha de definir el procediment: REBUTJAR \(H_0\) si \(p\)-valor \(< \alpha\).

1.1. Contrastos de bondad d’ajustament

Objectiu : Comprovar si un procés aleatori “segueix” o “s’ajusta” a un pressumpte model o no.
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ segueix el pressumpte model } \mathcal{M} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Tres casos distints:
- Contrast Ji-quadrat de Pearson: el pressumpte model s’expressa com a taula de probabilitats \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array}\) i la mostra com a taula de freqüències \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array}\)
  - Es pot aplicar a variable continua si es talla abans en intervals i es calcula la probabilitat de cada interval.
  - En R: funció chisq.test(x,p) on:
    - x: freqüències de la mostra. És a dir c(\(n_1\),\(n_2\),...\(n_k\)).
    - p: probabilitats del model. És a dir c(\(p_1\),\(p_2\),...\(p_k\)).
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si acudeix.
- Contrast de Kolmogorov-Smirnov: el pressumpte model és de variable (numèrica) contínua i es coneix la funció de distribució \(F_0(x)\)
  - En R: funció ks.test(x,y,...) on:
    - x: mostra de dades
    - y: nom entrecomillat de la funció \(F_0\) (tal qual estiga programada en R).
    - ...: paràmetres que puga necessitar la funció \(F_0\) (per exemple, mean i sd si es tracta de la normal, o rate si es tracta de l’exponencial, etc.)
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si acudeix.
- Contrast de Kolmogorov-Smirnov-Lilliefors: el pressumpte model és la família normal al complet
  - En R: funció lillie.test(x) del paquet nortest que cal instal.lar i carregar:
    - x: mostra de dades
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si acudeix.

1.2. Contrast d’aleatorietat

Objectiu : Comprovar si un procés de mostreig “produeix” dades independents entre sí, o no.
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ produeix dades independents entre sí} \\ H_1: & \text{no } H_0 \end{array} \right.\)
En R: funció runs.test(x) del paquet tseries que cal instal.lar i carregar:
- x: vector de signes (o amb dues úniques categories o números). S’ha de fabricar a partir de la mostra, bé comparant cada dada amb la mediana de totes elles, o bé comparant cada dada amb l’anterior (si puja o baixa)
- Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- ¡ATENCIÓ!: usa l’aproximació normal inclús quan no és possible (només convenient per a mostres amb més de 20 signes de cada tipus). Eixa comprobació l’has de fer per informar si acudeix eixe cas.

1.3. Contrast de quantils

Objectiu : Comprovar si un procés aleatori té un quantil d’ordre \(p\) que segueix sent un pressumpte valor \(x_0\) o ha canviat (pujat o baixat).
Contrast: \(\left\{\begin{array}{ll} H_0: & X_p = x_0 \\ H_1: & X_p \neq x_0 \text{ (o bien } X_p < x_0 \text{, o bien } X_p > x_0 \text{)} \end{array} \right.\)
En R: funció binom.test(x, n, p, alternative):
- x: quantitat de dades de la mostra inferiors o iguals a \(x_0\).
- n: quantitat total de dades.
- p: ordre del quantil (per defecte \(0.5\), per a la mediana).
- alternative: direcció de \(H_1\) (two.sided per defecte per a \(\neq\), i atención a less per a \(>\) o greater per a \(<\)).
- Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

1.4. Contrastos d’homogeneïtat (o mateixa distribució)

Objectiu : Comprovar si dos o más processos “segueixen” o “s’ajusten” a la mateixa distribució o llei de probabilitat. Els processos es mostregen de forma independent.
Contrast: \(\left\{\begin{array}{ll} H_0: & X_1, X_2, \ldots, X_K \text{ segueixen el mateix model} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Dos casos distintos:
- Contrast d’homogeneïtat Ji-quadrat de Pearson: les mostres ese resumeixen com taules de freqüències amb les mateixes categories. Es poden juntar com: \(\begin{array}{|l||c|c|c|} \hline \text{Muestra \ Categ.} x_i & x_1 & x_2 & \cdots & x_k \\ \hline X_1 & n_{11} & n_{12} & \cdots & n_{1k} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots \\ \hline X_K & n_{K1} & n_{K2} & \cdots & n_{Kk} \\ \hline \end{array}\)
  - En R: funció chisq.test(x,p) on:
    - x: matriu amb les freqüències de les mostres. És a dir matrix(data=\(n_{11}\),\(n_{12}\),...\(n_{Kk}\), nrow=\(K\), byrow=TRUE). Recorda que la funció table() pot ajudar-te a obtindre les freqüències de cada mostra.
    - y: deixar NULL si x té la matriu amb les freqüències de les mostres.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si no es compleixen les condicions teòriques de bona aproximació de la distribució ji-quadrat. Cal informar d’açò si acudeix.
- Contrast d’homogeneïtat de Kolmogorov-Smirnov: només per a 2 mostres de variable (numèrica) continua.
  - En R: funció ks.test(x, y) on:
    - x e y: dades de cada mostra.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
    - Torna un Warning si la mostra conté dades repetides. Cal informar d’açò si acudeix.

1.5. Contrast de comparació de dos processos (per preferència o valoració mediana)

Objectiu : valorar si algun de dos processos (\(X\) i \(Y\)) es pot considerar millor valorat que l’altre, o no
Contrast: \(\left\{\begin{array}{ll} H_0: & X \text{ e } Y \text{ es valoren per IGUAL} \\ H_1: & Y \text{ es valora "DISTINT", "PITJOR" o "MILLOR" que } X \end{array} \right.\)
Segons s’aconsegueixen les mostres de \(X\) i \(Y\) es pot treballar amb les dades en tres casos:
- Preferència (millor/pitjor): cada individu prova els dos processos i només indica quin dels dos prefereix
  - En R: funció binom.test(x, n, p, alternative):
    - x: recompte de preferències per \(Y\)
    - n: tamany de mostra
    - p: deixar per defecte (\(0.5\))
    - alternative: deixar per defecte (two.sided) si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a less si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a greater si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- Valoracions emparellades: cada individu prova els dos processos i dóna una valoració numèrica de cadascun
  - En R: funció wilcox.test(x, y, alternative, paired):
    - x: valoracions del procés \(X\), o les restes de “\(Y\) menys \(X\)” (si no es fica res en l’argument y).
    - y: valoracions del procés \(Y\) (o res, si van les diferències en x).
    - paired: posar a TRUE (ja que per defecte està a FALSE).
    - alternative: deixar per defecte (two.sided) si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a less si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a greater si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.
- Valoracions independents: cada individu prova un procés i dóna la seua valoració numèrica d’eixe procés
  - En R: funció wilcox.test(x, y, alternative, paired):
    - x: valoracions del procés \(X\).
    - y: valoracions del procés \(Y\).
    - paired: deixar a FALSE (valor per defecte).
    - alternative: deixar per defecte (two.sided) si \(H_1\) és “\(Y\) DISTINT de \(X\)”, canviar a less si \(H_1\) és “\(Y\) PITJOR que \(X\)”, o canviar a greater si \(H_1\) és “\(Y\) MILLOR que \(X\)”.
    - Torna una llista amb valors, entre els quals destaca el p.value, base per a la decisió del contrast.

2. EXERCICIS EVALUABLES DE CONTRASTOS

S’han de contestar responent a allò que es demana amb paraules relatives a l’enunciat (prohibit mencionar \(H_0\) o \(H_1\) en les respostes finals).

El següent bloc de codi carrega l’espai de treball mt1021-1415-labo-s1-data.RData. En ell estan definides certes variables per a resoldre els exercicis

load("mt1021-1415-labo-s1-data.RData")

2.1. Simula 50 dades d’un dau imperfecte definit per la taula

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

i després contrasta si eixa mostra és compatible amb un dau perfecte, comentant el resultat, referint al nivell de significació que es podria utilitzar. Usa alguna llavor per a la simulació.

# Escriu ací el teu codi i compila amb RStudio CTRL+SHIFT+K
# veuràs l'eixida de R