0. Los datos de la práctica

load(url('http://goo.gl/tqMDyM'))

1. ¿Qué es Inferencia Estadística?

2. Dos tipos de inferencia

2.1. Estimación de parámetros

  • Estimación puntual: el valor más creíble a partir de la muestra
  • Estimación por intervalo de confianza: un intervalo de valores más creíbles a partir de:
    • Los datos de la muestra y
    • Un nivel de confianza alto (por ejemplo \(80\)%, \(90\)%, \(95\)%, \(99\)%, etc.).

2.2. Contraste de hipótesis

  • ¿Cuándo se plantea?
    • Cuando la variable aleatoria \(X\) cumple una “presunta” condición inicial, y hay serias sospechas de que ya no la cumple
    • \(\left\{ \begin{array}{l} H_0: \ \text{hipótesis nula (cierta hasta que se demuestre lo contrario)} \\ H_1: \ \text{hipótesis alternativa (falsa hasta que se demuestre lo contrario)} \end{array} \right.\)
  • PROCEDIMIENTO DE CONTRASTE:
    1. Se plantea el contraste \(H_0\) vs \(H_1\)
    2. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.)
    3. Se toma la muestra
    4. Se calcula un estadístico “sensible a distinguir” \(H_0\) de \(H_1\)
    5. Se calcula el \(p\)-valor del estadístico
    6. La decisión es:
      • RECHAZAR \(H_0\) (en favor de \(H_1\)) si \(p\)-valor \(\leq \alpha\)
      • ACEPTAR \(H_0\) (en detrimento de \(H_1\)) si \(p\)-valor \(> \alpha\)
    7. Nunca se puede saber “con seguridad” si \(H_0\) es cierta o no:
      • Error tipo I: rechazar \(H_0\) cuando es cierta (es el error más grave, y su probabilidad no superará el nivel de significación).
      • Error tipo II: aceptar \(H_0\) cuando es falsa.
  • UN PROCEDIMIENTO ALTERNATIVO PARA CONTRASTES “SOBRE EL VALOR DE UN PARÁMETRO”:
    1. Se plantea el contraste \(H_0\) vs \(H_1\)
    2. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.)
    3. Se calcula el intervalo de confianza de nivel de confianza \(1 - \alpha\)
    4. La decisión es:
      • ACEPTAR \(H_0\) si el presunto valor del parámetro pertenece al intervalo de confianza
      • RECHAZAR \(H_0\) si el presunto valor del parámetro __ no pertenece al intervalo de confianza__

3 . Inferencia sobre la probabilidad de éxito \(p\) de pruebas de Bernoulli (o binomiales)

3.1. Una prueba de Bernoulli (o binomial) de parámetro \(p\)

  • Ejemplos:
    • Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Cuál es la verdadera probabilidad de “obtener cara”?
    • Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Podemos fiarnos de que es una moneda “equilibrada”?
    • Una producción es serie saca \(5\) defectusos de los últimos \(300\) producidos. ¿Cuál es la tasa a largo plazo de unidades defectuosas?
    • Una producción en serie va bien si su tasa de defectos a largo plazo es inferior al 2%, y parece que no va bien, ¿cómo comprobarlo?: \(\left\{ \begin{array}{l} H_0: \ p \leq 0.02 \\ H_1: \ p > 0.02 \end{array} \right.\)

3.1.1. Contraste de hipótesis sobre la \(p\) de una binomial (o Bernoulli)

  • Contraste \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p \neq p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p < p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p > p_0 \end{array} \right.\)
  • donde \(p_0\) es un valor concreto
  • FUNCIÓN prop.test(x, n, p, alternative):
    • Argumentos:
      • x: número de éxitos de la muestra
      • n: tamaño de la muestra
      • p: valor presunto, \(p_0\) (\(0.5\) por defecto)
      • alternative: sólo si se hace el contraste. Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

3.1.2. Intervalo de confianza para la \(p\) de una binomial (o Bernoulli)

  • FUNCIÓN prop.test(x, n, conf.level):
    • Argumentos:
      • x: número de éxitos de la muestra
      • n: tamaño de la muestra
      • conf.level: nivel de confianza (por defecto \(0.95\))
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • confidence interval: el intervalo
      • sample estimates: la estimación puntual

EJERCICIO 1: Un alumno quiere valorar su tasa de éxito en preguntas de Estadística. Para ello coge problemas al azar de un libro, y los resuelve, de modo que al final de la sesión, ha resuelto correctamente \(19\) de los \(30\) problemas atacados.

  • Calcula la estimación puntual de la “probabilidad de resolver correctamente un problema” de este alumno.
    • Sol.: \(0.6333333\)
  • Calcula un intervalo de confianza para dicha probabilidad, usando un nivel del confianza del \(90\)%.
    • Sol.: \(p \in [0.4668433, 0.7753366]\) con una confianza del \(90\)%
  • El alumno quiere demostrar que su eficacia de resolver problemas es superior al 50%. ¿Que dicen los datos si quiere una significación del \(5\)%?
    • Sol.: Quiere demostrar \(H_1: \ p > 0.5\), y el contraste devuelve un \(p\)-valor = \(0.1006213\). Como \(p\)-valor \(>\) \(\alpha\), entonces debe aceptar \(H_0\), por lo que no demuestra su eficacia superior al \(50\)%.

FIN EJERCICIO 1

3.2. Dos pruebas de Bernoulli (o binomiales) independientes de parámetros \(p_1\) y \(p_2\)

  • Ejemplo: Un tratamiento nuevo dice ser más efectivo (cura más pacientes) que el actual. ¿Es eso verdad? Si \(p_A\) es la tasa de curación del tratamiento actual y \(p_N\) es la tasa de curación del tratamiento nuevo, \(\left\{ \begin{array}{l} H_0: \ p_N = p_A \\ H_1: \ p_N > p_A \end{array} \right.\)

3.2.1. Contraste de hipótesis sobre la igualdad de proporciones \(p_1\) y \(p_2\) de dos pruebas de Bernoulli (o binomiales) independientes

  • Contraste \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 \neq p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 < p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 > p_2 \end{array} \right.\)
  • FUNCIÓN prop.test(x, n, p, alternative):
    • Argumentos:
      • x: vector con los dos números de éxitos de las dos muestras
      • n: vector con los dos tamaños de las dos muestras
      • p: dejar su valor por defecto (NULL) para contrastar la igualdad de las dos proporciones.
      • alternative: Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

3.2.2. Intervalo de confianza para la diferencia de proporciones \(p_1 - p_2\) de dos pruebas de Bernoulli (o binomiales) independientes

  • FUNCIÓN prop.test(x, n, conf.level):
    • Argumentos:
      • x: vector con los dos números de éxitos de las dos muestras
      • n: vector con los dos tamaños de las dos muestras
      • conf.level: nivel de confianza (por defecto 0.95)
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: las estimaciones puntuales de \(p_1\) y \(p_2\)
      • confidence interval: el intervalo de confianza para la diferencia \(p_1 - p_2\)

EJERCICIO 2: Dos alumnos quieren comparar su tasa de efectividad en preguntas tipo test de estadística. Uno ha acertado 15 preguntas de 25, y el otro ha acertado 10 de 20. A priori, no se puede decir que uno sea mejor que el otro. ¿Qué diría la estadística con estos datos, si se usa un nivel de significación del 10%?

  • Sol.: Se quiere comprobar si es cierto \(H_1: \ p_1 \neq p_2\), y el contraste devuelve un \(p\)-valor = \(0.7122\). Como \(p\)-valor \(> 0.10\), entonces debe aceptar \(H_0\), por lo que la estadística “dice” que no hay uno mejor que el otro.

FIN EJERCICIO 2

4. Inferencia sobre la media \(\mu\) del modelo normal (o de cualquier modelo, si la muestra es lo bastante grande)

4.1. Un solo modelo (de media \(\mu\))

  • Ejemplo: Analizar si está bien calibrada una máquina, por ejemplo, que dispensa 1500 cc de agua en botellas de agua mineral:
    • \(H_0: \ \mu = 1500\) (bien calibrada)
    • \(H_1: \ \mu \neq 1500\) (mal calibrada)

4.1.1. Contraste de hipótesis sobre el valor de la media \(\mu\) de un modelo normal (o cualquiera si la muestra es “grande”)

  • Contraste \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu \neq \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu < \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu = \mu_0 \\ H_1: \ \mu > \mu_0 \end{array} \right.\)
  • donde \(\mu_0\) es un valor concreto.
  • FUNCIÓN t.test(x, alternative, mu):
    • Argumentos:
      • x: datos de la muestra.
      • alternative: Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
      • mu: \(\mu_0\), el presunto valor (por defecto 0).
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

4.1.2. Intervalo de confianza sobre el valor de la media \(\mu\) de un modelo normal (o cualquiera si la muestra es “grande”)

  • FUNCIÓN t.test(x, conf.level):
    • Argumentos:
      • x: datos de muestra.
      • conf.level: nivel de confianza (por defecto 0.95).
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de la \(\mu\)
      • confidence interval: el intervalo de confianza para la \(\mu\)

EJERCICIO 3: Se supone que el tiempo que emplea un operario en realizar una serie de tareas sigue el modelo normal. Se registra el tiempo, en minutos, que emplea en las 10 últimas tareas:

Tarea 1 2 3 4 5 6 7 8 9 10
Tiempo 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11
  • ¿Cuál es la estimación puntual de la media de la normal que modeliza el tiempo de este operario?
    • Sol.: \(5.068\)
  • Calcula el intervalo de confianza para dicha media de la normal, usando un nivel de confianza del \(99\)%.
    • Sol.: \([4.8389794, 5.2970206]\)
  • Asumiendo un nivel de significación del \(3\)%, ¿los datos demuestran que el verdadero tiempo medio es superior a \(5\) minutos?
    • Sol.: Sale un \(p\)-valor = \(0.179895 > 0.03\), que conduce a aceptar \(H_0\), por lo que decidimos que no es superior a 5 minutos.

FIN EJERCICIO 3

4.2. Dos modelos (de medias \(\mu_1\) y \(\mu_2\)): datos independientes o emparejados

  • Ejemplo: ver si un nuevo algoritmo \(X\) es más rápido que otro \(Y\)
    • \(H_0: \ \mu_X = \mu_Y\) (mismo tiempo medio)
    • \(H_1: \ \mu_X < \mu_Y\) (menos tiempo medio el nuevo)

4.2.1. Contraste de hipótesis sobre la comparación de las medias \(\mu_1\) y \(\mu_2\) de dos modelos normales (o cualesquiera si las muestras son “grandes”)

  • Contraste \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 \neq \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 < \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 > \mu_0 \end{array} \right.\)
  • donde \(\mu_0\) es un valor concreto (habitualemente 0 para comparar si son iguales).
  • FUNCIÓN t.test(x, y, alternative, mu, paired, var.equal):
    • Argumentos:
      • x: datos de la muestra 1.
      • y: datos de la muestra 2.
      • alternative: Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
      • mu: \(\mu_0\), el presunto valor (por defecto \(0\) para comparar la igualdad).
      • paired: por defecto FALSE, indica datos independientes. Si los datos están emparejados por el muestreo, poner TRUE.
      • var.equal: por defecto FALSE. Si hubiera motivos para suponer que las varianzas poblacionales son iguales, se pondría TRUE, pero no es el caso en esta práctica.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

4.2.2. Intervalo de confianza sobre el valor de la media \(\mu\) de un modelo normal (o cualquiera si la muestra es “grande”)

  • FUNCIÓN t.test(x, y, paired, var.equal, conf.level):
    • Argumentos:
      • x: datos de la muestra 1.
      • y: datos de la muestra 2.
      • paired: por defecto FALSE, indica datos independientes. Si los datos están emparejados por el muestreo, poner TRUE.
      • var.equal: por defecto FALSE. Si hubiera motivos para suponer que las varianzas poblacionales son iguales, se pondría TRUE, pero no es el caso en esta práctica.
      • conf.level: nivel de confianza (por defecto 0.95).
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: la estimación puntual de \(\mu_1\) y \(\mu_2\) (si son dos muestras independientes) o de la diferencia \(\mu_1 - \mu_2\) (si son dos muestras emparejadas).
      • confidence interval: el intervalo de confianza para la diferencia \(\mu_1 - \mu_2\).

EJERCICIO 4: Para comparar la rapidez de dos operarios, se propone 10 tareas distintas, las mismas para ambos, y se registra el tiempo de cada uno en cada tarea.

Oper. / Trab. 1 2 3 4 5 6 7 8 9 10
A 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11
B 4.68 4.92 5.22 5.07 5.24 4.89 4.83 5.11 5.13 4.87
  • Calcula el intervalo de confianza para el tiempo medio de cada uno, usando un nivel de confianza del \(99\)%.
    • Sol.: \([4.8389794, 5.2970206]\) para A, y \([4.8063675, 5.1856325]\) para B.
  • Asumiendo un nivel de significación del \(3\)%, ¿los datos demuestran alguna diferencia significativa en la velocidad de ambos operarios?
    • Sol.: Sale un \(p\)-valor = \(0.4658923 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.
  • ¿Cómo quedaría el apartado anterior si los datos de la tabla fueran de 20 tareas distintas, asignando 10 a un operario y otras 10 a otro?
    • Sol.: Saldría un \(p\)-valor = \(0.4419082 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.

FIN EJERCICIO 4

5. Inferencia sobre la igualdad de varianzas de dos poblaciones normales

5.1. Contraste de hipótesis sobre la comparación de las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) de dos modelos normales

  • Contraste \(\left\{ \begin{array}{l} H_0: \ \sigma^2_1 / \sigma^2_2 = k \\ H_1: \ \sigma^2_1 / \sigma^2_2 \neq k \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \sigma^2_1 / \sigma^2_2 = k \\ H_1: \ \sigma^2_1 / \sigma^2_2 < k \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \sigma^2_1 / \sigma^2_2 = k \\ H_1: \ \sigma^2_1 / \sigma^2_2 > k \end{array} \right.\)
  • donde \(k\) es un valor concreto (habitualmente 1 para comparar la igualdad de varianzas).
  • FUNCIÓN var.test(x, y, ratio, alternative):
    • Argumentos:
      • x: datos de la muestra 1.
      • y: datos de la muestra 2.
      • ratio: \(k\), el presunto cociente (por defecto \(1\) para comparar la igualdad de varianzas).
      • alternative: Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.

5.2. Intervalo de confianza para el cociente de las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) de dos modelos normales

  • FUNCIÓN var.test(x, y, conf.level):
    • Argumentos:
      • x: datos de la muestra 1.
      • y: datos de la muestra 2.
      • conf.level: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95.
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • sample estimates: el cociente de las varianzas muestrales.
      • confidence interval: el intervalo de confianza de dicho cociente.

6. Un contraste de normalidad

7. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la bondad de ajuste

EJERCICIO 5: Una muestra presenta los valores \(0\), \(1\), \(2\) y \(3\) con frecuencias respectivas \(15\), \(35\), \(28\) y \(19\). Se presume que el modelo viene dado por las probabilidades \(P(X=0) = 0.2\), \(P(X=1) = 0.3\), \(P(X=2) = 0.3\), \(P(X=3) = 0.2\). ¿La muestra es compatible con dicho modelo usando una significación del \(10\)%?

FIN EJERCICIO 5

8. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la independiencia de dos variables cualitativas

EJERCICIO 6: Una muestra contiene \(82\) hombres diestros, \(8\) hombres zurdos, \(59\) mujeres diestras y \(11\) mujeres zurdas. ¿La muestra es compatible con que la lateralidad es independiente del sexo, usando una significación del \(5\)%?

FIN EJERCICIO 6

9. Ejercicios preparatorios extra