0. Los datos de la práctica

load(url('http://goo.gl/tqMDyM'))

Se utilizarán en la sección de ejercicios.

1. ¿Qué es Inferencia Estadística?

2. Dos tipos de inferencia

2.1. Estimación de parámetros

  • Estimación puntual: el valor más creíble a partir de la muestra
  • Estimación por intervalo de confianza: un intervalo de valores más creíbles a partir de:
    • Los datos de la muestra y
    • Un nivel de confianza alto (por ejemplo \(80\)%, \(90\)%, \(95\)%, \(99\)%, etc.).

2.2. Contraste de hipótesis

  • ¿Cuándo se plantea?
    • Cuando la variable aleatoria \(X\) cumple una “presunta” condición inicial, y hay serias sospechas de que ya no la cumple
    • \(\left\{ \begin{array}{l} H_0: \ \text{hipótesis nula (cierta hasta que se demuestre lo contrario)} \\ H_1: \ \text{hipótesis alternativa (falsa hasta que se demuestre lo contrario)} \end{array} \right.\)
  • PROCEDIMIENTO DE CONTRASTE:
    1. Se plantea el contraste \(H_0\) vs \(H_1\)
    2. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.)
    3. Se toma la muestra
    4. Se calcula un estadístico “sensible a distinguir” \(H_0\) de \(H_1\)
    5. Se calcula el \(p\)-valor del estadístico
    6. La decisión es:
      • RECHAZAR \(H_0\) (en favor de \(H_1\)) si \(p\)-valor \(\leq \alpha\)
      • ACEPTAR \(H_0\) (en detrimento de \(H_1\)) si \(p\)-valor \(> \alpha\)
    7. Nunca se puede saber “con seguridad” si \(H_0\) es cierta o no:
      • Error tipo I: rechazar \(H_0\) cuando es cierta (es el error más grave, y su probabilidad no superará el nivel de significación).
      • Error tipo II: aceptar \(H_0\) cuando es falsa.
  • UN PROCEDIMIENTO ALTERNATIVO PARA CONTRASTES “SOBRE EL VALOR DE UN PARÁMETRO”:
    1. Se plantea el contraste \(H_0\) vs \(H_1\)
    2. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.)
    3. Se calcula el intervalo de confianza de nivel de confianza \(1 - \alpha\)
    4. La decisión es:
      • ACEPTAR \(H_0\) si el presunto valor del parámetro pertenece al intervalo de confianza
      • RECHAZAR \(H_0\) si el presunto valor del parámetro __ no pertenece al intervalo de confianza__

3 . Inferencia sobre la probabilidad de éxito \(p\) de pruebas de Bernoulli

3.1. Una prueba de Bernoulli de parámetro \(p\)

  • Ejemplos:
    • Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Cuál es la verdadera probabilidad de “obtener cara”?
    • Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Podemos fiarnos de que es una moneda “equilibrada”?
    • Una producción es serie saca \(5\) defectusos de los últimos \(300\) producidos. ¿Cuál es la tasa a largo plazo de unidades defectuosas?
    • Una producción en serie va bien si su tasa de defectos a largo plazo es inferior al 2%, y parece que no va bien, ¿cómo comprobarlo?: \(\left\{ \begin{array}{l} H_0: \ p \leq 0.02 \\ H_1: \ p > 0.02 \end{array} \right.\)
  • Situación general: Un proceso de éxito/fracaso está caracterizado por la probabilidad (proporción, tasa o porcentaje) de éxito \(p\).
    • Inferencia: “estimar” dicha proporción \(p\)
      • Con un valor concreto
      • Con un intervalo de confianza
    • Inferencia: “contrastar dicha proporción”
      • si dicha proporción vale un “presunto” valor (es decir, \(p = p_0\)), - o bien si no lo es, con una de las tres opciones \(p \neq p_0\), \(p < p_0\) o \(p > p_0\).
      • Es decir \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p \neq p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p < p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p > p_0 \end{array} \right.\)
  • FUNCIÓN prop.test(x, n, p, alternative, conf.level):
    • Argumentos:
      • x: número de éxitos de la muestra
      • n: tamaño de la muestra
      • p: sólo si se hace el contraste: “presunto” valor de \(p\), es decir, \(p_0\) (vale \(0.5\) por defecto)
      • alternative: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided" (para \(\neq\)), pero se debe cambiar a "greater" (si es \(>\)) o a "less" (si es \(<\)).
      • conf.level: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de la \(p\)
      • confidence interval: el intervalo de confianza para la \(p\)
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

EJERCICIO 1: Un alumno quiere valorar su tasa de éxito en preguntas de Estadística. Para ello coge problemas al azar de un libro, y los resuelve, de modo que al final de la sesión, ha resuelto correctamente \(19\) de los \(30\) problemas atacados.

  • Calcula la estimación puntual de la “probabilidad de resolver correctamente un problema” de este alumno.
    • Sol.: \(0.6333333\)
  • Calcula un intervalo de confianza para dicha probabilidad, usando un nivel del confianza del \(90\)%.
    • Sol.: \(p \in [0.4668433, 0.7753366]\) con una confianza del \(90\)%
  • El alumno quiere demostrar que su eficacia de resolver problemas es superior al 50%. ¿Que dicen los datos si quiere una significación del \(5\)%?
    • Sol.: Quiere demostrar \(H_1: \ p > 0.5\), y el contraste devuelve un \(p\)-valor = \(0.1006213\). Como \(p\)-valor \(>\) \(\alpha\), entonces debe aceptar \(H_0\), por lo que no demuestra su eficacia superior al \(50\)%.

FIN EJERCICIO 1

3.2. Dos pruebas de Bernoulli (independientes) de parámetros \(p_1\) y \(p_2\)

  • Ejemplo: Un tratamiento nuevo dice ser más efectivo (cura más pacientes) que el actual. ¿Es eso verdad? Si \(p_A\) es la tasa de curación del tratamiento actual y \(p_N\) es la tasa de curación del tratamiento nuevo, \(\left\{ \begin{array}{l} H_0: \ p_N = p_A \\ H_1: \ p_N > p_A \end{array} \right.\)
  • Situación general: Dos procesos (independientes) de éxito/fracaso están caracterizados por sus probabilidades (proporciones, tasas o porcentajes) de éxito \(p_1\) y \(p_2\).
    • Inferencia 1: estimar dichas proporciones
      • Con dos valores concretos respectivos
      • Con un intervalo de confianza para la diferencia \(p_1 - p_2\).
    • Inferencia 2: contrastar si
      • Ambas probabilidades coinciden (es decir, \(p_1 = p_2\)).
      • o bien si no coinciden, con una de las tres opciones \(p_1 \neq p_2\), \(p_1 < p_2\) o \(p_1 > p_2\).
      • Es decir \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 \neq p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 < p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 > p_2 \end{array} \right.\)
  • FUNCIÓN prop.test(x, n, p, alternative, conf.level):
    • Argumentos:
      • x: vector con los dos números de éxitos de las dos muestras
      • n: vector con los dos tamaños de las dos muestras
      • p: sólo si se hace el contraste: dejar su valor por defecto (NULL) para contrastar la igualdad de las dos proporciones.
      • alternative: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided" (para \(\neq\)), pero se debe cambiar a "greater" (si es \(>\)) o a "less" (si es \(<\)).
      • conf.level: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de \(p_1\) y \(p_2\)
      • confidence interval: el intervalo de confianza para la diferencia \(p_1 - p_2\)
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

EJERCICIO 2: Dos alumnos quieren comparar su tasa de efectividad en preguntas tipo test de estadística. Uno ha acertado 15 preguntas de 25, y el otro ha acertado 10 de 20. A priori, no se puede decir que uno sea mejor que el otro. ¿Qué diría la estadística con estos datos, si se usa un nivel de significación del 10%?.

  • Sol.: Se quiere comprobar si es cierto \(H_1: \ p_1 \neq p_2\), y el contraste devuelve un \(p\)-valor = \(0.7122\). Como \(p\)-valor \(> 0.10\), entonces debe aceptar \(H_0\), por lo que la estadística “dice” que no hay uno mejor que el otro.

FIN EJERCICIO 1

4. Inferencia sobre la media \(\mu\) del modelo normal (o de cualquier modelo si la muestra es grande)

4.1. Un modelo (de media \(\mu\))

  • Ejemplo: Analizar si está bien calibrada una máquina, por ejemplo, que dispensa 1500 cc de agua en botellas de agua mineral:
    • \(H_0: \ \mu = 1500\) (bien calibrada)
    • \(H_1: \ \mu \neq 1500\) (mal calibrada)
  • Situación general: Un proceso modelizado por una variable normal \(X\) (o de cualquier tipo si la muestra es grande) de media desconocida.
    • Inferencia “estimar” dicha media
      • Con un valor concreto
      • Con un intervalo de confianza
    • Inferencia “contrastar” sobre dicha media:
      • si dicha media vale un “presunto” valor (es decir \(\mu=\mu_0\)),
      • o bien si no lo es, con una de las tres opciones \(\mu \neq \mu_0\), \(\mu < \mu_0\) o \(\mu > \mu_0\).
      • Es decir \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu \neq \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu < \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu > \mu_0 \end{array} \right.\)
  • FUNCIÓN t.test(x, alternative, mu, conf.level):
    • Argumentos:
      • x: datos de la primera muestra.
      • alternative: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided" (para \(\neq\)), pero se debe cambiar a "greater" (si es \(>\)) o a "less" (si es \(<\)).
      • mu: sólo si se hace el contraste: “presunto” valor de \(\mu\)
      • conf.level: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de la \(\mu\)
      • confidence interval: el intervalo de confianza para la \(\mu\)
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

EJERCICIO 3: Se supone que el tiempo que emplea un operario en realizar una serie de tareas sigue el modelo normal. Se registra el tiempo, en minutos, que emplea en las 10 últimas tareas:

Tarea 1 2 3 4 5 6 7 8 9 10
Tiempo 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11
  • ¿Cuál es la estimación puntual de la media de la normal que modeliza el tiempo de este operario?
    • Sol.: \(5.068\)
  • Calcula el intervalo de confianza para dicha media de la normal, usando un nivel de confianza del \(99\)%.
    • Sol.: \([4.8389794, 5.2970206]\)
  • Asumiendo un nivel de significación del \(3\)%, ¿los datos demuestran que el verdadero tiempo medio es superior a \(5\) minutos?
    • Sol.: Sale un \(p\)-valor = \(0.179895 > 0.03\), que conduce a aceptar \(H_0\), por lo que decidimos que no es superior a 5 minutos.

FIN EJERCICIO 3

4.2. Dos modelos (de medias \(\mu_1\) y \(\mu_2\))

  • Ejemplos: Ver si un nuevo algoritmo \(X\) es más rápido que otro \(Y\)
    • \(H_0: \ \mu_X = \mu_Y\) (mismo tiempo medio)
    • \(H_1: \ \mu_X < \mu_Y\) (menos tiempo medio el nuevo)
  • Situación general: Dos procesos modelizados por sendas variables normales \(X\) e \(Y\) (o de cualquier tipo si las muestras son grandes), y cuyos datos son independientes entre sí o pueden estar emparejados por el muestreo.
    • Inferencia 1: estimar dichas medias
      • Con un valor concreto para cada una, si son muestras independientes.
      • Con un valor de “diferencia” entre ambas, si son muestras emparejadas.
      • Con un intervalo de confianza para la diferencia de las medias \(\mu_1 - \mu_2\) (en ambos casos)
    • Inferencia 2: contrastar si:
      • ambas medias coinciden (\(\mu_X = \mu_Y\))
      • o bien no coinciden, con una de las tres opciones \(\mu_X \neq \mu_Y\), \(\mu_X < \mu_Y\) o bien \(\mu_X > \mu_Y\)).
      • Es decir \(\left\{ \begin{array}{l} H_0: \ \mu_X = \mu_Y \\ H_1: \ \mu_X \neq \mu_Y \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_X = \mu_Y \\ H_1: \ \mu_X < \mu_Y \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_X = \mu_Y \\ H_1: \ \mu_X > \mu_Y \end{array} \right.\)
  • FUNCIÓN t.test(x, y, alternative, mu, paired, var.equal, conf.level):
    • Argumentos:
      • x: datos de la primera muestra.
      • y: datos de la segunda muestra.
      • alternative: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided" (para \(\neq\)), pero se debe cambiar a "greater" (si es \(>\)) o a "less" (si es \(<\)).
      • mu: sólo si se hace el contraste: dejar su valor por defecto (0) para contrastar la igualdad de las dos medias, o cambiar si se presume una diferencia concreta distinta de \(0\).
      • paired: ¿Son datos emparejados por la forma de muestrear? Dejar por defecto (FALSE) si son independientes, y cambiar a TRUE si están emparejadas.
      • var.equal: ¿Se pueden considerar iguales las varianzas (poblacionales) de las dos muestras? Dejar por defecto (FALSE) si no se tienen indicios de lo contrario.
      • conf.level: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de \(\mu_1\) y \(\mu_2\) (si son dos muestras independientes) o de la diferencia \(\mu_1 - \mu_2\) si son dos muestras emparejadas.
      • confidence interval: el intervalo de confianza para la diferencia \(\mu_1 - \mu_2\).
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

EJERCICIO 4: Para comparar la rapidez de dos operarios, se propone 10 tareas distintas, las mismas para ambos, y se registra el tiempo de cada uno en cada tarea.

Oper. / Trab. 1 2 3 4 5 6 7 8 9 10
A 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11
B 4.68 4.92 5.22 5.07 5.24 4.89 4.83 5.11 5.13 4.87
  • Calcula el intervalo de confianza para el tiempo medio de cada uno, usando un nivel de confianza del \(99\)%.
    • Sol.: \([4.8389794, 5.2970206]\) para A, y \([4.8063675, 5.1856325]\) para B.
  • Asumiendo un nivel de significación del \(3\)%, ¿los datos demuestran alguna diferencia significativa en la velocidad de ambos operarios?
    • Sol.: Sale un \(p\)-valor = \(0.4658923 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.
  • ¿Cómo quedaría el apartado anterior si los datos de la tabla fueran de 20 tareas distintas, asignando 10 a un operario y otras 10 a otro?
    • Sol.: Saldría un \(p\)-valor = \(0.4419082 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.

FIN EJERCICIO 4

5. Inferencia sobre la igualdad de varianzas de dos poblaciones normales

6. Un contraste de normalidad

7. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la bondad de ajuste

El “presunto” modelo (tabla de probabilidades)
. \(X\) \(x_1\) \(x_2\) \(x_k\)
. \(f(x)\) \(p_1\) \(p_2\) \(p_k\)
La muestra obtenida (tabla de frecuencias)
. \(x_i\) \(x_1\) \(x_2\) \(x_k\)
. \(n_i\) \(n_1\) \(n_2\) \(n_k\)

EJERCICIO 5: Una muestra presenta los valores \(0\), \(1\), \(2\) y \(3\) con frecuencias respectivas \(15\), \(35\), \(28\) y \(19\). Se presume que el modelo viene dado por las probabilidades \(P(X=0) = 0.2\), \(P(X=1) = 0.3\), \(P(X=2) = 0.3\), \(P(X=3) = 0.2\). ¿La muestra es compatible con dicho modelo usando una significación del \(10\)%?

FIN EJERCICIO 5

8. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la independiencia de dos variables cualitativas

EJERCICIO 6: Una muestra contiene \(82\) hombres diestros, \(8\) hombres zurdos, \(59\) mujeres diestras y \(11\) mujeres zurdas. ¿La muestra es compatible con que la lateralidad es independiente del sexo, usando una significación del \(5\)%?

FIN EJERCICIO 6

9. Ejercicios preparatorios extra