Práctica 2: Contrastes de hipótesis estadísticos no paramétricos e introducción a la programación en lenguaje R

1. CONTRASTES DE HIPÓTESIS ESTADÍSTICOS NO PARAMÉTRICOS

En esta práctica se repasan algunos contrastes de hipótesis no paramétricos de una y dos poblaciones

Bondad de ajuste: Ji-cuadrado de Pearson simple, Kolmogorov-Smirnov y Lilliefors
Aleatoriedad
Cuantiles
Homogeneidad: Ji-cuadrado de Pearson y KS
Comparación de dos procesos (por preferencia o valoración mediana)

Recuerda que para tener un nivel de significación a lo sumo \(\alpha\), se debe definir el procedimiento: RECHAZAR \(H_0\) si \(p\)-valor \(< \alpha\).

1.1. Contrastes de bondad de ajuste

Objetivo: Comprobar si un proceso aleatorio “sigue” o “se ajusta” a un presunto modelo o no.
Contraste: \(\left\{\begin{array}{ll} H_0: & X \text{ sigue el presunto modelo } \mathcal{M} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Tres casos distintos:
- Contraste Ji-cuadrado de Pearson: el presunto modelo se expresa como tabla de probabilidades \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array}\) y la muestra como tabla de frecuencias \(\begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array}\)
  - Se puede aplicar a variable continua si se corta antes en intervalos y se calcula la probabilidad de cada intervalo.
  - En R: función chisq.test(x,p) donde:
    - x: frecuencias de la muestra. Es decir c(\(n_1\),\(n_2\),...\(n_k\)).
    - p: probabilidades del modelo. Es decir c(\(p_1\),\(p_2\),...\(p_k\)).
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si no se cumplen las condiciones teóricas de buena aproximación de la distribución ji-cuadrado. Hay que informar de ello si ocurre.
- Contraste de Kolmogorov-Smirnov: el presunto modelo es de variable (numérica) continua y se conoce su función de distribución \(F_0(x)\)
  - En R: función ks.test(x,y,...) donde:
    - x: muestra de datos
    - y: nombre entrecomillado de la función \(F_0\) (tal cual esté programada en R).
    - ...: parámetros que pueda necesitar la función \(F_0\) (por ejemplo, mean y sd si se trata de la normal, o rate si se trata de la exponencial, etc.)
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que informar de ello si ocurre.
- Contraste de Kolmogorov-Smirnov-Lilliefors: el presunto modelo es la familia normal al completo
  - En R: función lillie.test(x) del paquete nortest que hay que instalar y cargar:
    - x: muestra de datos
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que informar de ello si ocurre.

1.2. Contraste de aleatoriedad

Objetivo: Comprobar si un proceso de muestreo “produce” datos independientes entre sí o no.
Contraste: \(\left\{\begin{array}{ll} H_0: & X \text{ produce datos independientes entre sí} \\ H_1: & \text{no } H_0 \end{array} \right.\)
En R: función runs.test(x) del paquete tseries que hay que instalar y cargar:
- x: vector de signos (o con dos únicas categorías o números). Hay que fabricarlo a partir de la muestra, bien comparando cada dato con la mediana de todos ellos, o bien comparando cada dato con el anterior (si sube o baja)
- Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
- ¡ATENCIÓN!: usa la aproximación normal incluso cuando no se debe (sólo conveniente para muestras con más de 20 signos de cada tipo). Esa comprobación debes hacerla para informar si ocurre ese caso.

1.3. Contraste de cuantiles

Objetivo: Comprobar si un proceso aleatorio tiene un cuantil de orden \(p\) que sigue siendo un presunto valor \(x_0\) o ha cambiado (subido o bajado).
Contraste: \(\left\{\begin{array}{ll} H_0: & X_p = x_0 \\ H_1: & X_p \neq x_0 \text{ (o bien } X_p < x_0 \text{, o bien } X_p > x_0 \text{)} \end{array} \right.\)
En R: función binom.test(x, n, p, alternative):
- x: cantidad de datos de la muestra inferiores o iguales a \(x_0\).
- n: cantidad total de datos.
- p: orden del cuantil (por defecto \(0.5\), para la mediana).
- alternative: dirección de \(H_1\) (two.sided por defecto para \(\neq\), y atención a less para \(>\) o greater para \(<\)).
- Devuelve una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

1.4. Contrastes de homogeneidad (o misma distribución)

Objetivo: Comprobar si dos o más procesos “siguen” o “se ajustan” a la misma distribución o ley de probabilidad. Los procesos se muestrean de forma independiente.
Contraste: \(\left\{\begin{array}{ll} H_0: & X_1, X_2, \ldots, X_K \text{ siguen el mismo modelo} \\ H_1: & \text{no } H_0 \end{array} \right.\)
Dos casos distintos:
- Contraste de homogeneidad Ji-cuadrado de Pearson: las muestras se resumen como tablas de frecuencias con las mismas categorías. Se podrían escribir todas juntas como: \(\begin{array}{|l||c|c|c|} \hline \text{Muestra \ Categ.} x_i & x_1 & x_2 & \cdots & x_k \\ \hline X_1 & n_{11} & n_{12} & \cdots & n_{1k} \\ \hline X_2 & n_{21} & n_{22} & \cdots & n_{2k} \\ \hline \vdots & \vdots & \vdots & \ddots & \vdots \\ \hline X_K & n_{K1} & n_{K2} & \cdots & n_{Kk} \\ \hline \end{array}\)
  - En R: función chisq.test(x,p) donde:
    - x: matriz con las frecuencias de las muestras. Es decir matrix(data=\(n_{11}\),\(n_{12}\),...\(n_{Kk}\), nrow=\(K\), byrow=TRUE). Recuerda que la función table() puede ayudarte a obtener las frecuencias de cada muestra.
    - y: dejar NULL si xtiene la matriz con las frecuencias de las muestras.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si no se cumplen las condiciones teóricas de buena aproximación de la distribución ji-cuadrado. Hay que informar de ello si ocurre.
- Contraste de homogeneidad de Kolmogorov-Smirnov: sólo para 2 muestras de variable (numérica) continua.
  - En R: función ks.test(x, y) donde:
    - x e y: datos de cada muestra.
    - Devuelve una lista con valores, entre los que destaca el p.value, base para la decisión del contraste.
    - Devuelve un Warning si la muestra contiene datos repetidos. Hay que informar de ello si ocurre.

1.5. Contraste de comparación de dos procesos (por preferencia o valoración mediana)

Objetivo: valorar si alguno de dos procesos (\(X\) e \(Y\)) se puede considerar mejor valorado que el otro, o no
Contraste: \(\left\{\begin{array}{ll} H_0: & X \text{ e } Y \text{ se valoran por IGUAL} \\ H_1: & Y \text{ se valora "DISTINTO", "PEOR" o "MEJOR" que } X \end{array} \right.\)
Según se consigan las muestras de \(X\) e \(Y\) se puede trabajar con sus datos en tres casos:
- Preferencia (mejor/peor): cada individuo prueba los dos procesos y solo indica cuál prefiere
  - En R: función binom.test(x, n, p, alternative):
    - x: recuento de preferencias por \(Y\)
    - n: tamaño de muestra
    - p: dejar por defecto (\(0.5\))
    - alternative: dejar por defecto (two.sided) si \(H_1\) es “\(Y\) DISTINTO de \(X\)”, cambiar a less si \(H_1\) es “\(Y\) PEOR que \(X\)”, o cambiar a greater si \(H_1\) es “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.
- Valoraciones emparejadas: cada individuo prueba los dos procesos y da una valoración numérica de cada uno
  - En R: función wilcox.test(x, y, alternative, paired):
    - x: valoraciones del proceso \(X\), o las restas de “\(Y\) menos \(X\)” (si no se pone nada en el argumento y).
    - y: valoraciones del proceso \(Y\) (o nada si van las diferencias en x).
    - paired: poner a TRUE (ya que por defecto está a FALSE).
    - alternative: dejar por defecto (two.sided) si \(H_1\) es “\(Y\) DISTINTO de \(X\)”, cambiar a less si \(H_1\) es “\(Y\) PEOR que \(X\)”, o cambiar a greater si \(H_1\) es “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.
- Valoraciones independientes: cada individuo prueba un proceso y da su valoración numérica
  - En R: función wilcox.test(x, y, alternative, paired):
    - x: valoraciones del proceso \(X\).
    - y: valoraciones del proceso \(Y\).
    - paired: dejar a FALSE (valor por defecto).
    - alternative: dejar por defecto (two.sided) si \(H_1\) es “\(Y\) DISTINTO de \(X\)”, cambiar a less si \(H_1\) es “\(Y\) PEOR que \(X\)”, o cambiar a greater si \(H_1\) es “\(Y\) MEJOR que \(X\)”.
    - Devuelve una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

2. EJERCICIOS EVALUABLES DE CONTRASTES

Se deben contestar respondiendo a lo que se pregunta con palabras relativas al enunciado (prohibido mencionar \(H_0\) o \(H_1\) en las respuestas finales).

El siguiente bloque de código carga el espacio de trabajo mt1021-1415-labo-s1-data.RData. En él están definidas ciertas variables para resolver los ejercicios

load("mt1021-1415-labo-s1-data.RData")

2.1. Simula 50 datos de un dado imperfecto definido por la tabla

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

y luego contrasta si esa muestra es compatible con un dado perfecto, comentando el resultado, refiriendo al nivel de significación que se pueda utilizar. Usa alguna semilla para la simulación.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R