Práctica 2: Contrastes de hipótesis estadísticos no paramétricos

1. INTRODUCCIÓN

En esta práctica se repasan algunos contrastes de hipótesis no paramétricos de una y dos poblaciones

Bondad de ajuste: Ji-cuadrado de Pearson simple, KS y KSL
Aleatoriedad: rachas
Cuantiles: signos
Homogeneidad: Ji-cuadradode Pearson y KS
Comparación de medianas con datos emparejados: signos y Wilcoxon (rangos con signo)
Comparación de medianas con datos independientes: Wilcoxon-Mann-Whitney

Recuerda que para tener un nivel de significación a lo sumo \(\alpha\), se debe definir el procedimiento: RECHAZAR \(H_0\) si \(p\)-valor \(< \alpha\).

2. CONTRASTES DE BONDAD DE AJUSTE

Son contrastes para decidir entre:

creer que la muestra obtenida se ajusta a un presunto modelo de variable aleatoria, o bien
descartar ese modelo porque es increíble para la muestra observada

2.1. Contraste de bondad de ajuste ji-cuadrado de PEARSON

MUESTRA: datos categóricos o numéricos, siempre que se puedan resumir como tabla de frecuencias del tipo:

\[ \begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline n_i & n_1 & \cdots & n_k \\ \hline \end{array} \]

OBSERVACIÓN: dicha tabla de frecuencias se puede obtener de variables numéricas, discreta o continua, convirtiendo intervalos de números en categorías de dicha tabla.
CONTRASTE: verificar si el proceso se ajusta o no a un modelo concreto, expresado en forma de tabla de probabilidades

\[ \left\{ \begin{array}{ll} H_0: & X \sim \begin{array}{|c||c|c|c|} \hline x_i & x_1 & \cdots & x_k \\ \hline p_i & p_1 & \cdots & p_k \\ \hline \end{array} \\ H_1: & \text{no } H_0 \end{array} \right. \]

FUNCIÓN: chisq.test(x, p)
ARGUMENTOS:
- x: vector con frecuencias de las categorías (tabla de frecuencias).
- p: vector con probabilidades de las categorías (por defecto uniforme).
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

2.2. Contraste de bondad de ajuste de KOLMOGOROV-SMIRNOV

MUESTRA: datos numéricos, de variable continua (no se permite coincidencias en la muestra).
CONTRASTE: verificar si el proceso se ajusta o no a un presunto modelo concreto, expresado con su función de distribución acumulada \(F_0(x)\),

\[ \left\{ \begin{array}{ll} H_0: & F_X = F_0 \\ H_1: & F_X \neq F_0 \end{array} \right. \]

FUNCIÓN: ks.test(x, y,...)
ARGUMENTOS:
- x: vector con datos de la muestra.
- y: nombre (entrecomillado) de la función \(F_0\) (según esté programada en R: "punif", "pnorm", "pexp",…).
- ...: parámetros de la función \(F_0\) en R
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

2.3. Contraste de normalidad de LILLIEFORS

MUESTRA: datos numéricos, de variable continua.
CONTRASTE: verificar si el proceso se ajusta o no a un modelo normal (sin importar los parámetros).

\[ \left\{ \begin{array}{ll} H_0: & X \text{ normal} \\ H_1: & X \text{ no normal} \end{array} \right. \]

FUNCIÓN: lillie.test(x) del package nortest. Hay que (instalar y) cargar el paquete desde el menú.
ARGUMENTOS:
- x: vector con datos de la muestra.
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

3. CONTRASTES DE ALEATORIEDAD

Asumimos que tenemos una variable aleatoria \(X\) de la que se ha extraído “secuencialmente” una muestra. Todos los datos se han obtenido de \(X\), pero no sabemos si esos datos son independientes entre sí.

Son contrastes para decidir entre:

creer que los datos de la muestra son independientes unos de otros, o bien
descartar esa creencia, porque parece que unos datos influyen sobre otros.

3.1. Contraste de rachas

Una racha es algo que se puede definir de varias formas:

una serie de datos por encima (o por debajo) de la mediana,
una serie de datos en ascenso (o descenso), etc.

Cuando hay verdadera aleatoriedad, no es habitual que haya rachas muy largas, ni tampoco que haya muchas rachas muy cortas. El “número de rachas” es el estadístico “sensible” a que la muestra sea aleatoria.

Los datos numéricos se tranforman en signos (según el criterio elegido), y los signos permiten contar las rachas (cada cadena máxima de signos iguales es una racha).

MUESTRA: 1 variable, datos numéricos, que se transforman en signos
CONTRASTE: verificar si las rachas que se han formado son creíbles o no bajo la hipótesis de aleatoriedad (independencia)

\[ \left\{ \begin{array}{ll} H_0: & \text{datos independientes entre sí} \\ H_1: & \text{datos con cierta dependencia entre sí} \end{array} \right. \]

FUNCIÓN: runs.test(x) del package ‘tseries’.
ARGUMENTOS:
- x: vector con los “signos”.
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.
¡ATENCIÓN!: usa aproximación normal incluso cuando no se debe (sólo conveniente para muestras con más de 20 signos de cada tipo)

4. CONTRASTE DE CUANTILES

Si \(X\) expresa una variable aleatoria, su cuantil de orden \(p_0\) se representa por \(X_{p_0}\).

MUESTRA: 1 variable, datos numéricos
CONTRASTE: verificar si el valor \(x_0\) es creíble como cuantil del orden \(p_0\) para la muestra observada

\[ \left\{ \begin{array}{ll} H_0: & X_{p_0} = x_0 \\ H_1: & X_{p_0} (\neq, <, >) x_0 \end{array} \right. \]

FUNCIÓN: binom.test(x, n, p, alternative)
ARGUMENTOS:
- x: número de datos inferiores o iguales a \(x_0\).
- n: número total de datos.
- p: orden del cuantil, es decir, \(p_0\), por defecto \(0.5\) (mediana).
- alternative: dirección de \(H_1\) (two.sided por defecto para \(\neq\), y atención a less para \(>\) o greater para \(<\)). ¡ATENCIÓN! Recuerda que el estadístico sale “muy grande” cuando el verdadero cuantil \(X_{p_0}\) es más pequeño que \(x_0\), y viceversa (sale “muy pequeño” cuando el verdadero cuantil \(X_{p_0}\) es más grande que \(x_0\)) POR ESO LA alternative UNILATERAL SE PONE AL CONTRARIO DE LO QUE DICE EL CONTRASTE
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

5. CONTRASTES DE HOMOGENEIDAD

Son contrastes para decidir si 2 ó mas poblaciones mantienen la misma distribución (variable aleatoria) o no.

5.1. Contraste de homogeneidad Ji-cuadrado de PEARSON

Se aplica sobre las tablas de frecuencias de las muestras, por lo que deben ser cualitativas, o si no, agruparse los datos en intervalos, para poder hacer las tablas de frecuencias.

MUESTRA: varias variables cualitativas, cada una en un vector, o resumidas en tablas de frecuencias.
CONTRASTE:

\[ \left\{ \begin{array}{ll} H_0: & \text{misma distribución para todas} \\ H_1: & \text{no } H_0 \end{array} \right. \]

FUNCIÓN: chisq.test(x, y).
ARGUMENTOS:
- x: puede ser una matriz con las tablas de frecuencias pegadas, o un vector con los datos de la primera variable.
- y: nada (por defecto), si x lo tiene todo, o los datos de la segunda variable.
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

5.2. Contraste de homogeneidad de KOLMOGOROV-SMIRNOV

Se aplica sobre 2 poblaciones numéricas independientes.

MUESTRA: 2 variables, datos numéricos independientes.
CONTRASTE: decidir si ambas poblaciones siguen la misma ley de probabilidad

\[ \left\{ \begin{array}{ll} H_0: & F_X = F_Y \text{ (es decir, misma distribución)} \\ H_1: & \text{no } H_0 \end{array} \right. \]

FUNCIÓN: ks.test(x, y)
ARGUMENTOS:
- x: vector con datos de una muestra.
- y: vector con datos de la otra muestra.
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

6. COMPARACIÓN DE MEDIANAS CON DATOS EMPAREJADOS: signos y Wilcoxon (rangos con signo)

6.1. Contraste de comparación de medianas con DATOS EMPAREJADOS (SIGNOS)

MUESTRA: 2 variables, datos ordinales emparejados, o recuento de comparaciones (signos) entre los datos.
CONTRASTE:

\[ \left\{ \begin{array}{ll} H_0: & \text{Me}_X = \text{Me}_Y \\ H_1: & \text{Me}_X (\neq, <, >) \text{Me}_Y \end{array} \right. \]

FUNCIÓN: binom.test(x, n, p, alternative).
ARGUMENTOS:
- x: recuento de comparaciones + (datos que de la primera a la segunda población aumentan).
- n: número de parejas de datos.
- p: dejar por defecto, \(0.5\).
- alternative: dirección de \(H_1\) (two.sided por defecto para \(\neq\), y atención a less para \(>\) o greater para \(<\)).
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

6.2. Contraste de comparación de medianas con DATOS EMPAREJADOS (RANGOS CON SIGNO)

MUESTRA: 2 variables, datos numéricos emparejados, o diferencias numéricas calculadas entre los datos.
CONTRASTE:

\[ \left\{ \begin{array}{ll} H_0: & \text{Me}_X = \text{Me}_Y \\ H_1: & \text{Me}_X (\neq, <, >) \text{Me}_Y \end{array} \right. \]

FUNCIÓN: wilcox.test(x, y, alternative, paired).
ARGUMENTOS:
- x: datos de 1 muestra, o ya las diferencias (si no se pone nada en y).
- y: datos de la otra muestra (o nada si van las diferencias en x).
- paired: poner a TRUE (ya que por defecto está a FALSE).
- alternative: dirección de \(H_1\) (two.sided por defecto para \(\neq\), y atención a less para \(>\) o greater para \(<\)).
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

7. CONTRASTE COMPARACIÓN MEDIANAS DATOS INDEPENDIENTES (RANGOS CON SIGNO)

MUESTRA: 2 variables, datos numéricos independientes.
CONTRASTE:

\[ \left\{ \begin{array}{ll} H_0: & \text{Me}_X = \text{Me}_Y \\ H_1: & \text{Me}_X (\neq, <, >) \text{Me}_Y \end{array} \right. \]

FUNCIÓN: wilcox.test(x, y, alternative, paired).
ARGUMENTOS:
- x: datos de 1 muestra, o ya las diferencias (si no se pone nada en y).
- y: datos de la otra muestra, o nada si van las diferencias en x).
- paired: dejar su valor por defecto (FALSE).
- alternative: dirección de \(H_1\) (two.sided por defecto para \(\neq\), y atención a less para \(>\) o greater para \(<\)).
DEVUELVE: una lista con valores, entre los que destaca el p.value, base de la decisión del contraste.

8. EJERCICIOS EVALUABLES DE CONTRASTES

Se deben contestar respondiendo a lo que se pregunta con palabras relativas al enunciado (prohibido mencionar \(H_0\) o \(H_1\) en las respuestas finales).

El siguiente bloque de código carga el espacio de trabajo mt1021-1415-labo-s1-data.RData. En él están definidas ciertas variables para resolver los ejercicios

load("mt1021-1415-labo-s1-data.RData")

8.1. Simula 50 datos de un dado imperfecto definido por la tabla

  X        1    2    3    4    5    6
  f(X)  0.15 0.13 0.20 0.15 0.17 0.20

y luego contrasta si esa muestra es compatible con un dado perfecto, comentando el resultado, refiriendo al nivel de significación que se pueda utilizar. Usa alguna semilla para la simulación.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R