0. Los datos de la práctica

1. ¿Qué es Inferencia Estadística?

2. Dos tipos de inferencia

2.1. Estimación de parámetros

  • Estimación puntual: (sample estimates) el valor “más creíble” del parámetro a partir de la muestra
  • Estimación por intervalo de confianza: (confidence interval) un intervalo de valores más creíbles del parámetro a partir de:
    • Los datos de la muestra y
    • Un nivel de confianza alto (por ejemplo \(80\)%, \(90\)%, \(95\)%, \(99\)%, etc.).

2.2. Contraste de hipótesis (test)

  • ¿Cuándo se plantea?
    • Cuando hay serias sospechas de que no se cumple un “presunto” supuesto.
    • \(\left\{ \begin{array}{l} H_0: \ \text{hipótesis nula (cierta hasta que se demuestre lo contrario)} \\ H_1: \ \text{hipótesis alternativa (falsa hasta que se demuestre lo contrario)} \end{array} \right.\)
  • PROCEDIMIENTO HABITUAL PARA LOS CONTRASTES:
    1. Se plantea el contraste \(H_0\) vs \(H_1\).
    2. Se toma la muestra.
    3. Se calcula un estadístico “sensible a distinguir” \(H_0\) de \(H_1\).
    4. Se calcula el \(p\)-valor del estadístico.
    5. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.) para limitar el riesgo de equivocarse (rechazando \(H_0\) cuando sea cierta).
    6. El procedimiento es:
      • \(p\)-valor \(\leq \alpha \Longrightarrow\) RECHAZAR \(H_0\) (en favor de \(H_1\))
      • \(p\)-valor \(> \alpha \Longrightarrow\) ACEPTAR \(H_0\) (en detrimento de \(H_1\))
    7. En general es imposible saber “con seguridad” si \(H_0\) es cierta o no, porque la muestra es posible bajo ambos supuestos:
      • Error tipo I: rechazar \(H_0\) cuando es cierta (es el error más grave, y por eso se limita con el nivel de significación \(\alpha\)).
      • Error tipo II: aceptar \(H_0\) cuando es falsa.
  • UN PROCEDIMIENTO ALTERNATIVO PARA CONTRASTES “SOBRE EL VALOR DE UN PARÁMETRO”:
    1. Se plantea el contraste \(H_0: \theta = \theta_0\) vs \(H_1: \text{"otra cosa"}\), donde \(\theta\) es el nombre del parámetro y \(\theta_0\) el presunto valor.
    2. Se elige un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.) para limitar el riesgo de equivocarse (rechazando \(H_0\) cuando sea cierta).
    3. Se calcula \(IC\), el intervalo de confianza de nivel \(1 - \alpha\) para el parámetro en cuestión (teniendo en cuenta también \(H_1\))
    4. La decisión es:
      • Si \(\theta_0 \in IC \Longrightarrow\) ACEPTAR \(H_0\)
      • Si \(\theta_0 \notin IC \Longrightarrow\) RECHAZAR \(H_0\)
  • Ejemplo:
    1. Una moneda se usa para hacer sorteos.
    2. Se presupone “equilibrada”.
    3. Se observan lanzamientos que hacen sospechar que esté equilibrada.
    4. Se plantea el contraste: \(\left\{ \begin{array}{l} H_0: \ \text{moneda equilibrada} \\ H_1: \ \text{moneda desequilibrada } \end{array} \right.\)
    5. Se pide una muestra de esa moneda. Por ejemplo CCXCCCCXCC.
    6. Se calcula un estadístico “sensible” a distinguir entre \(H_0\) y \(H_1\).
      • Por ejemplo: \(T\) = “número de caras”.
      • En esta muestra \(T=8\).
      • Es sensible, porque si \(H_0\) es cierta, \(T\) sale cerca de 5 y si \(h_0\) es falsa, \(T\) se alejaría de 5 (por arriba o por abajo)
      • Pero \(T=8\) es posible bajo \(H_0\) y bajo \(H_1\).
      • Los contrastes no son infalibles.
      • \(p\)-valor de \(T=8\): probabilidad de encontrar un valor “tan inverosímil o más” que \(T=8\) suponiendo que \(H_0\) sea cierta
      • Si \(p\)-valor es muy pequeño, \(H_0\) es menos creíble y RECHAZAMOS \(H_0\)
      • Si \(p\)-valor no es tan pequeño, ACEPTAMOS \(H_0\)
    7. Escoger nivel de significación \(\alpha\)

3. La \(p\) de UNA binomial (o Bernoulli): contrastes de hipótesis e intervalo de confianza

  • Ejemplos:
    • Una moneda se lanza \(100\) veces dando \(37\) caras.
      • ¿Cuál es la \(p\) (probabilidad de “obtener cara”) de esta moneda? (estimación)
      • ¿Podemos fiarnos de que es una moneda “equilibrada” (\(p=0.5\))? (contraste)
    • Una producción es serie saca \(5\) defectusos de los últimos \(300\) producidos.
      • ¿Cuál es la \(p\) = “tasa a largo plazo de unidades defectuosas”? (estimación)
      • ¿Podemos fiarnos de que la tasa de defectos está bajo control, p.ej. \(p \leq 0.02\)? (contraste)
  • Contrastes \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p \neq p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p < p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p > p_0 \end{array} \right.\) donde \(p_0\) es un valor numérico concreto
  • Intervalo de confianza para \(p\)
  • Estimación puntual de \(p\)
  • FUNCIÓN prop.test(x, n, p, alternative, conf.level):
    • Argumentos:
      • x: número de éxitos de la muestra
      • n: tamaño de la muestra
      • p: sólo para el contraste, Valor presunto \(p_0\) (NULL por defecto)
      • alternative: sólo para el contraste. Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
      • conf.level: sólo para intervalo de confianza. Nivel de confianza (por defecto \(0.95\))
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
      • sample estimates: la estimación puntual
      • confidence interval: el intervalo de confianza

EJERCICIO 1: Un alumno quiere valorar su tasa de éxito en preguntas de Estadística. Para ello coge problemas al azar de un libro, y los resuelve, de modo que al final de la sesión, ha resuelto correctamente \(19\) de los \(30\) problemas atacados.

  • Calcula la estimación puntual de la “probabilidad de resolver correctamente un problema” de este alumno.
    • Sol.: \(0.6333333\)
  • Calcula un intervalo de confianza para dicha probabilidad, usando un nivel del confianza del \(90\)%.
    • Sol.: \(p \in [0.4668433, 0.7753366]\) con una confianza del \(90\)%
  • El alumno quiere demostrar que su eficacia de resolver problemas es superior al 50%. ¿Que dicen los datos si quiere una significación del \(5\)%?
    • Sol.: Quiere demostrar \(H_1: \ p > 0.5\), y el contraste devuelve un \(p\)-valor = \(0.1006213\). Como \(p\)-valor \(>\) \(\alpha\), entonces debe aceptar \(H_0\), por lo que no demuestra su eficacia superior al \(50\)%.

FIN EJERCICIO 1

4. Las \(p\)’s de DOS binomiales (o pruebas de Bernoulli) independientes

  • Ejemplo: Un tratamiento nuevo dice ser más efectivo (cura más pacientes) que el actual. ¿Es eso verdad? Si \(p_A\) es la tasa de curación del tratamiento actual y \(p_N\) es la tasa de curación del tratamiento nuevo, \(\left\{ \begin{array}{l} H_0: \ p_N = p_A \\ H_1: \ p_N > p_A \end{array} \right.\)
  • Contrastes \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 \neq p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 < p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 > p_2 \end{array} \right.\)
  • Intervalo de confianza para \(p_1 - p_2\)
  • Estimación puntual de \(p_1\) y \(p_2\)
  • FUNCIÓN prop.test(x, n, p, alternative, conf.level):
    • Argumentos:
      • x: vector con los DOS números de éxitos de las dos muestras
      • n: vector con los DOS tamaños de las dos muestras
      • p: sólo para contraste. Dejar su valor por defecto (NULL) para contrastar la igualdad de las dos proporciones.
      • alternative: sólo para contraste. Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
      • conf.level: sólo para intervalo de confianza. Nivel de confianza (por defecto 0.95)
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
      • confidence interval: el intervalo de confianza para la diferencia \(p_1 - p_2\)
      • sample estimates: las estimaciones puntuales de \(p_1\) y \(p_2\)

EJERCICIO 2: Dos alumnos quieren comparar su tasa de efectividad en preguntas tipo test de estadística. Uno ha acertado 15 preguntas de 25, y el otro ha acertado 10 de 20. A priori, no se puede decir que uno sea mejor que el otro. ¿Qué diría la estadística con estos datos, si se usa un nivel de significación del 10%?

  • Sol.: Se quiere comprobar si es cierto \(H_1: \ p_1 \neq p_2\), y el contraste devuelve un \(p\)-valor = \(0.7122\). Como \(p\)-valor \(> 0.10\), entonces debe aceptar \(H_0\), es decir, que no hay uno mejor que el otro.

FIN EJERCICIO 2

5. La media \(\mu\) de UNA normal (o de cualquier modelo si la muestra es grande)

EJERCICIO 3: Se supone que el tiempo que emplea un operario en realizar una serie de tareas sigue el modelo normal. Se registra el tiempo, en minutos, que emplea en las 10 últimas tareas:

Tarea 1 2 3 4 5 6 7 8 9 10
Tiempo 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11

FIN EJERCICIO 3

6. Las medias \(\mu_1\) y \(\mu_2\) de DOS normales (o modelos cualesquiera si la muestra es grande)

  • Ejemplo: ver si un nuevo algoritmo \(X\) es más rápido que otro \(Y\)
    • \(H_0: \ \mu_X = \mu_Y\) (mismo tiempo medio)
    • \(H_1: \ \mu_X < \mu_Y\) (menos tiempo medio el nuevo)
  • ¿Datos independientes o emparejados?
    • Ejemplo: dos personas realizan 10 tareas para ver quien es más rápido.
      • Si preparo 20 tareas “similares pero distintas”, y se dividen en 10 tareas a cada uno, cada tiempo de una persona es independiente del tiempo de la otra.
      • Si preparo 10 tareas “similares pero distintas”, y se asignan las 10 tareas a ambos, cada tiempo de una persona está emparejado con el tiempo de la otra persona en la misma tarea, pues la dificultad de dicha tarea afecta por igual a las dos personas
  • Contrastes \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 \neq \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 < \mu_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \mu_1 - \mu_2 = \mu_0 \\ H_1: \ \mu_1 - \mu_2 > \mu_0 \end{array} \right.\) donde \(\mu_0\) es un valor concreto (habitualemente 0 para comparar si son iguales).
  • Intervalo de confianza para \(\mu_1 - \mu_2\)
  • Estimación puntual de \(\mu_1\) y \(\mu_2\) (o bien de \(\mu_1-\mu_2\) si son datos emparejados).
  • FUNCIÓN t.test(x, y, alternative, mu, paired, var.equal, conf.level):
    • Argumentos:
      • x: datos de la muestra 1.
      • y: datos de la muestra 2.
      • alternative: sólo para contraste. Dirección de \(H_1\).
        • "two.sided" para \(\neq\) (por defecto)
        • "less" para \(<\)
        • "greater" para \(>\)
      • mu: sólo para contraste. \(\mu_0\), el presunto valor (por defecto \(0\) para comparar la igualdad).
      • paired: IMPORTANTE. Por defecto FALSE, indica datos independientes. Si los datos están emparejados por el muestreo, poner TRUE.
      • var.equal: por defecto FALSE. Si hubiera motivos para suponer que las varianzas poblacionales son iguales, se pondría TRUE, pero no es el caso en esta práctica.
      • conf.level: sólo para intervalo de confianza. Nivel de confianza (por defecto 0.95).
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
      • confidence interval: el intervalo de confianza para la diferencia \(\mu_1 - \mu_2\).
      • sample estimates: la estimación puntual de \(\mu_1\) y \(\mu_2\) (si son dos muestras independientes) o de la diferencia \(\mu_1 - \mu_2\) (si son dos muestras emparejadas).

EJERCICIO 4: Para comparar la rapidez de dos operarios, se proponen 10 tareas distintas, las mismas para ambos, y se registra el tiempo de cada uno en cada tarea.

Oper. / Trab. 1 2 3 4 5 6 7 8 9 10
A 5.05 5.1 5.21 4.98 4.58 4.94 5.1 5.15 5.46 5.11
B 4.68 4.92 5.22 5.07 5.24 4.89 4.83 5.11 5.13 4.87
  • Calcula el intervalo de confianza para el tiempo medio de cada uno, usando un nivel de confianza del \(99\)%.
    • Sol.: \([4.8389794, 5.2970206]\) para A, y \([4.8063675, 5.1856325]\) para B.
  • Asumiendo un nivel de significación del \(3\)%, ¿los datos demuestran alguna diferencia significativa en la velocidad de ambos operarios?
    • Sol.: Sale un \(p\)-valor = \(0.4658923 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.
  • ¿Cómo quedaría el apartado anterior si los datos de la tabla fueran de 20 tareas distintas, asignando 10 a un operario y otras 10 a otro?
    • Sol.: Saldría un \(p\)-valor = \(0.4419082 > 0.03\), que conduce a aceptar \(H_0\), por lo que no existen diferencias significativas.

FIN EJERCICIO 4

7. Las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) de DOS normales independientes

8. Un contraste de normalidad

9. Bondad de ajuste de una muestra a un modelo (dado por tabla de probabilidades)

EJERCICIO 5: Una muestra presenta los valores \(0\), \(1\), \(2\) y \(3\) con frecuencias respectivas \(15\), \(35\), \(28\) y \(19\). Se presume que el modelo viene dado por las probabilidades \(P(X=0) = 0.2\), \(P(X=1) = 0.3\), \(P(X=2) = 0.3\), \(P(X=3) = 0.2\). ¿La muestra es compatible con dicho modelo usando una significación del \(10\)%?

FIN EJERCICIO 5

10. Contraste de independiencia enrte dos variables cualitativas

  • Ejemplo: ¿ser zurdo o diestro es independiente de ser hombre o mujer? Debería serlo, pero si lo dudamos, se puede poner a prueba.
  • Contraste \(\left\{ \begin{array}{l} H_0: \ X \text{ e } Y \text{ son independientes} \\ H_1: \ \text{No } H_0 \end{array} \right.\)
  • FUNCIÓN chisq.test(x, y)
    • Argumentos:
      • x: dos posibilidades:
        • vector con los datos de la muestra \(X\), o bien
        • tabla de frecuencias conjuntas de \(X\) e \(Y\):
          • que puede obtenerse con la función table() sobre los datos de ambas variables, o bien
          • escrita como matriz usando la función matrix(...).
      • y: dos posibilidades:
        • vector con los datos de \(Y\) (si el argumento x contiene solo los datos de la muestra \(X\)), o bien
        • nada, si el argumento x contiene la tabla de frecuencias conjuntas de \(X\) e \(Y\).
    • Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
      • p-value: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
      • Warning: mensaje de peligro de mala aproximación (si procede).
  • Recordatorio: para definir una matriz en R, se incluye el siguiente ejemplo:
    • \(\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}\)
    • matrix(data=c(1,2,3,4,5,6), ncol=3, byrow=TRUE)
    • se indican las entradas de la matriz, el número de columnas que tendrá, y si se rellena poner por filas.

EJERCICIO 6: Una muestra contiene \(82\) hombres diestros, \(8\) hombres zurdos, \(59\) mujeres diestras y \(11\) mujeres zurdas. ¿La muestra es compatible con que la “lateralidad manual” es independiente del “sexo”, usando una significación del \(5\)%?

  • Sol.: Se obtiene un \(p\)-valor = \(0.281197 > 0.05\), por lo que se acepta \(H_0\), es decir, que la muestra sí es compatible con que sean independientes.

FIN EJERCICIO 6

10. Resumen de inferencia

12. Ejercicios preparatorios extra