Práctica 2: Contrastes de hipótesis estadísticas no paramétricos

1. CONTRASTES DE HIPÓTESIS ESTADÍSTICAS NO PARAMÉTRICOS

En esta práctica se aplican algunos contrastes de hipótesis no paramétricos de una y dos poblaciones
1. Bondad de ajuste: si una muestra observada es compatible con:
  - una tabla de probabilidades (Ji-cuadrado de Pearson),
  - un modelo “concreto” de variable aletoria continua (Kolmogorov-Smirnov)
  - la familia del modelo normal (Lilliefors)
2. Aleatoriedad: si una muestra observada es compatible con que los datos guardan independencia mutua
3. Cuantiles: si una muestra observada es compatible con que la distribución de la que proviene tiene cierto “presunto” valor de un cuantil “concreto” (percentil, cuartil, mediana)
4. Homogeneidad: si varias muestras observadas son compatibles con que provienen de la misma distribución…:
  - … discreta (Ji-cuadrado de Pearson)
  - … continua (Kolmogorov-Smirnov, solo con 2 muestras)
5. Comparación de dos procesos (por preferencia o valoración mediana): si una muestra observada que compara dos procesos es compatible con que los procesos están igualmente valorados:
  - se indica solo preferencia del mejor valorado (prueba de signos)
  - se valoran los dos procesos de forma emparejada (Wilcoxon)
  - se valoran los dos procesos de forma independiente (Mann-Whitney)
Procedimiento general de contraste de nivel de significación \(\alpha\):
- “RECHAZAR \(H_0\) si \(p\)-valor \(< \alpha\)”

1.1. Contrastes de bondad de ajuste

Objetivo : decidir si una muestra observada es compatible con un modelo concreto
Contraste: \(\left\{\begin{array}{ll} H_0: & \text{la muestra proviene del modelo } \mathcal{M} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Tres casos distintos:
- Contraste Ji-cuadrado de Pearson:
  - \(\mathcal{M} \equiv \begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array}\) (tabla de probabilidades)
  - Muestra: resumida en tabla de frecuencias \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array}\)
  - Se puede aplicar a variable continua (si se corta la recta real en intervalos y se calcula la probabilidad de cada intervalo).
  - En R: función chisq.test(x,p) on:
    - x: vector de frecuencias de la tabla de frecuencias de los datos de muestra. Es decir c(\(n_1\),\(n_2\),...\(n_k\)).
    - p: probabilidades de la tabla de probabilidades. Es decir c(\(p_1\),\(p_2\),...\(p_k\)).
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si no se cumplen las condiciones teóricas de buena aproximación de la distribución ji-cuadrado. Hay que advertirlo si ocurre.
- Contraste de Kolmogorov-Smirnov: \(\mathcal{M}\) es variable (numérica) continua dada por la función de distribución acumulada \(F_0(x)\)
  - En R: función ks.test(x,y,...) donde:
    - x: vector con la muestra de datos
    - y: nombre “entrecomillado” de la función \(F_0\) (una vez programada en R, por ejemplo "punif", "pnorm", "pexp", etc.).
    - ...: parámetros adicionales de la función \(F_0\) (por ejemplo, mean y sd si se trata de la normal, o rate si se trata de la exponencial, etc.)
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que advertirlo si ocurre.
- Contraste de Kolmogorov-Smirnov-Lilliefors: \(\mathcal{M}\) es la família normal al completo
  - En R: función lillie.test(x) (atención! cargar el package nortest, y instalarlo antes si no está disponible):
    - x: vector con los datos de la muestra
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que advertirlo si ocurre.

1.2. Contraste de aleatoriedad

Objetivo : decidir si una muestra observada es compatible con que los datos guardan independencia mutua
Contraste: \(\left\{\begin{array}{ll} H_0: & \text{muestra con datos independientes entre sí} \\ H_1: & \text{no } H_0 \end{array} \right.\)
En R: función runs.test(x) (atención! cargar el package tseries, y instalarlo antes si no está disponible)::
- x: vector de signos (o con dos únicas categoríes o números). Si no está disponible, hay que fabricarlo a partir de la muestra original (bien comparando cada dato con la mediana de todos ellos, o bien comparando cada dato con el anterior, si sube o baja)
- Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
- ¡ATENCIÓN!: runs.test()usa siempre la aproximación normal, incluso cuando no es aceptable (muestras con más de 20 signos de cada tipo). Tendrás que alertar si ocurre ese caso.

1.3. Contraste de cuantiles

Objetivo : decidir si una muestra observada es compatible con que la distribución de la que proviene tiene cierto “presunto” valor \(x_0\) de un cuantil de un orden concreto \(p\) (poir ejemplo, percentil, cuartil, mediana)
Contraste: \(\left\{\begin{array}{ll} H_0: & X_p = x_0 \\ H_1: & X_p \neq x_0 \text{ (o bien } X_p < x_0 \text{, o bien } X_p > x_0 \text{)} \end{array} \right.\)
En R: función binom.test(x, n, p, alternative) donde:
- x: cantidad de datos de la muestra inferiores o iguales a \(x_0\).
- n: cantidad total de datos en la muestra.
- p: orden del cuantil (por defecto \(0.5\), para la mediana).
- alternative: dirección de \(H_1\) ("two.sided" por defecto para \(\neq\), y atención!, "less" para \(>\), y "greater" para \(<\)).
- Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.

1.4. Contrastes de homogeneidad (o misma distribución)

Objetivo : Comprobar si dos o más procesos siguen (o se ajustan) a la misma distribución o ley de probabilidad. Los procesos se muestrean de forma independiente.
Contraste: \(\left\{\begin{array}{ll} H_0: & \text{las muestras provienen de la misma distribución} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Dos casos distintos:
- Contraste de homogeneidad Ji-cuadrado de Pearson: las muestras se resumen como tablas de frecuencias con las mismas categorías. Se pueden juntar como: \(\begin{array}{|l||c|c|c|} \hline \text{Muestra \ Categ.} x_i & x_1 & x_2 & \cdots & x_k \\ \hline X_1 & n_{11} & n_{12} & \cdots & n_{1k} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots \\ \hline X_K & n_{K1} & n_{K2} & \cdots & n_{Kk} \\ \hline \end{array}\)
  - En R: función chisq.test(x,y) donde:
    - x: matriz con las tablas de frecuencias de las muestras. Es decir matrix(data=c(\(n_{11}\),\(n_{12}\),...,\(n_{Kk}\)), nrow=\(K\), byrow=TRUE). Recuerda que la función table() puede ayudarte a obtener las frecuencias de cada muestra.
    - y: dejar NULL si x tiene la matriz con las frecuencias de las muestras. En caso contrario, y es la segunda muestra, mientras que x ha de ser la primera muestra.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si no se cumplen las condiciones teóricas de buena aproximación de la distribución ji-cuadrado. Hay que advertirlo si ocurre.
- Contraste de homogeneidad de Kolmogorov-Smirnov: sólo para 2 muestras de variable (numérica) continua.
  - En R: función ks.test(x, y) donde:
    - x e y: vectores con los datos de cada muestra.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que advertirlo si ocurre.

1.5. Contraste de comparación de dos procesos (por preferencia o valoración mediana)

Objetivo : comprobar si dos procesos (\(X\) e \(Y\)) tienen una presunta misma valoració general (o no).
Contraste: \(\left\{\begin{array}{ll} H_0: & X \text{ e } Y \text{ se valoran por IGUAL} \\ H_1: & Y \text{ se valora DISTINTO, PEOR o MEJOR que } X \end{array} \right.\)
Según la forma de muestreo de los datos de \(X\) y \(Y\) se pueden encontrar tres situaciones:
- Preferencia (mejor/peor): cada individuo prueba los dos procesos y solo indica cuál de los dos prefiere
  - En R: función binom.test(x, n, p, alternative) donde:
    - x: recuento de preferencias por \(Y\)
    - n: tamaño de muestra
    - p: dejar por defecto (\(0.5\))
    - alternative: dejar por defecto ("two.sided") si \(H_1\) es “\(Y\) DISTINTO de \(X\)”, cambiar a "less" si \(H_1\) es “\(Y\) PEOR que \(X\)”, o cambiar a "greater" si \(H_1\) es “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
- Valoraciones emparejadas: cada individuo prueba los dos procesos y da una valoración numérica de cada uno.
  - En R: función wilcox.test(x, y, alternative, paired) donde:
    - x: valoraciones del proceso \(X\), o las diferencias de “\(Y\) menos \(X\)” (si no se pone nada en el argumento y).
    - y: valoraciones del proceso \(Y\) (o nada, si van las diferencias en x).
    - paired: poner a TRUE (ya que por defecto esta en FALSE).
    - alternative: dejar por defecto ("two.sided") si \(H_1\) és “\(Y\) DISTINTO de \(X\)”, cambiar a "less" si \(H_1\) es “\(Y\) PEOR que \(X\)”, o cambiar a "greater" si \(H_1\) és “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
- Valoraciones independientes: cada individuo prueba sólo un proceso y da su valoración numérica de ese proceso.
  - En R: función wilcox.test(x, y, alternative, paired) donde:
    - x: valoraciones del proceso \(X\).
    - y: valoraciones del proceso \(Y\).
    - paired: dejar a FALSE (valor por defecto).
    - alternative: dejar por defecto (two.sided) si \(H_1\) és “\(Y\) DISTINTO de \(X\)”, cambiar a less si \(H_1\) és “\(Y\) PEOR que \(X\)”, o cambiar a greater si \(H_1\) es “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.

2. EJERCICIOS EVALUABLES DE CONTRASTES

Se han de contestar respondiendo a lo que se pide con palabras relativas al enunciado (prohibido mencionar \(H_0\) o \(H_1\) en las respustas finales).

El siguiente bloque de código carga el espacio de trabajo mt1021-1920-labo-s2-tests-data.RData. En él están definidas ciertas variables para resolver los ejercicios.

load("mt1021-1920-labo-s2-tests-data.RData")

2.1. (1) Simula 50 datos de un dado imperfecto definido por la tabla que figura a continuación (usa una semilla para la repetibilidad). (2) Escribe la tabla de frecuencias de dicha simulación. (3) Contrasta si esa muestra es compatible con un dado equilibrado. (4) Comenta la decisión del contraste según los niveles de significación habituales. (5) Comenta si el contraste ha funcionado (en el sentido que si ha detectado lo correcto o no).

\[\begin{array}{c||cccccc} X & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline f(X) & 0.15 & 0.13 & 0.20 & 0.15 & 0.17 & 0.20 \end{array}\]

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

# Escribe aquí tu código y compila con RStudio CTRL+SHIFT+K
# verás la salida de R