0. Los datos de la práctica
- Copia el siguiente bloque de código en la consola de R para cargar los datos de la práctica:
load(url('http://goo.gl/tqMDyM'))
Se utilizarán en la sección de ejercicios.
1. ¿Qué es Inferencia Estadística?
- Cálculo de probabilidades: proceso de indagar sobre la futura muestra dando por conocido el modelo de la variable aleatoria \(X\).
- Inferencia estadística: proceso de indagar sobre el modelo vigente dando por conocida una muestra \(\{x_1, \ldots, x_n\}\).
- El modelo será total o parcialmente desconocido, pero no es aleatorio.
- O bien no sabemos nada.
- O bien podemos suponer el modelo, pero no los parámetros.
- Sólo la muestra puede ayudar a estimar el modelo.
2. Dos tipos de inferencia
- Estimación de parámetros: intento de aproximar el valor del parámetro desconocido
- Contraste de hipótesis: intento de verificar si el modelo de \(X\) es el que se supone a priori, o no.
2.1. Estimación de parámetros
- Estimación puntual: se calcula el valor más creíble a partir de la muestra
- Estimación por intervalo de confianza: se calcula un intervalo de valores más creíbles a partir de:
- Los datos de la muestra y
- Un nivel de confianza (por ejemplo \(80\)%, \(90\)%, \(95\)%, \(99\)%, etc.).
2.2. Contraste de hipótesis
- ¿Cuándo se plantea? Cuando el modelo cumple una “presunta” condición inicial, y hay serias sospechas de que ya no la cumple.
- \(\left\{ \begin{array}{l} H_0: \ \text{hipótesis nula (cierta hasta que se demuestre lo contrario)} \\ H_1: \ \text{hipótesis alternativa (falsa hasta que se demuestre lo contrario)} \end{array} \right.\)
- PROCEDIMIENTO DE CONTRASTE:
- Se plantea el contraste \(H_0\) vs \(H_1\), y se toma un nivel de significación \(\alpha\) pequeño (\(10\)%, \(5\)%, \(1\)%, etc.)
- Se toma la muestra
- Se calcula un estadístico “sensible a distinguir” \(H_0\) de \(H_1\)
- Se calcula el \(p\)-valor y la DECISIÓN ES:
- RECHAZAR \(H_0\) (en favor de \(H_1\)) si \(p\)-valor \(< \alpha\)
- ACEPTAR \(H_0\) (en detrimento de \(H_1\)) si \(p\)-valor \(> \alpha\)
- NUNCA SE SABRÁ CON SEGURIDAD SI \(H_0\) ES CIERTA O NO:
- Error tipo I: rechazar \(H_0\) cuando es cierta (es el más grave).
- Error tipo II: aceptar \(H_0\) cuando es falsa.
- OTRO PROCEDIMIENTO PARA CONTRASTAR EL VALOR DE UN PARÁMETRO: se calcula el intervalo de confianza de nivel de confianza \(1 - \alpha\) se ACEPTA \(H_0\) si el presunto valor del parámetro pertenece al intervalo de confianza
3 . Inferencia sobre la probabilidad de éxito \(p\) de una prueba de Bernoulli (o dos probabilidades de éxito \(p_1\) y \(p_2\) de dos pruebas de Bernoulli independientes)
- Ejemplos:
- Estimar la proporción (o porcentaje a largo plazo) de efectividad de un tratamiento, de producción defectuosa, de favorables a una iniciativa, etc.
- Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Cuál es la probabilidad estimada de “cara”? ¿\(p\)?
- Una producción es serie saca \(5\) defectusos de los últimos \(300\) producidos. ¿Cuál es la tasa estimada de unidades defectuosas? ¿\(p\)?
- Contrastar si esa proporción puede ser o no un valor preconcebido.
- Una moneda “presuntamente” equilibrada está bajo sospecha de trucaje: \(\left\{ \begin{array}{l} H_0: \ p=0.5 \\ H_1: \ p \neq 0.5 \end{array} \right.\)
- Una producción es serie tiene una “presunta” tasa de defectos del \(1\)%, pero parace que se ha desajustado: \(\left\{ \begin{array}{l} H_0: \ p=0.1 \\ H_1: \ p>0.1 \end{array} \right.\)
- Contrastar si un nuevo tratamiento mejora al actual tratamiento.
- Un tratamiento nuevo dice ser más efectivo (cura más pacientes) que el actual. ¿Es eso verdad? Si \(p_A\) es la tasa de curación del tratamiento actual y \(p_N\) es la tasa de curación del tratamiento nuevo, \(\left\{ \begin{array}{l} H_0: \ p_N = p_A \\ H_1: \ p_N > p_A \end{array} \right.\)
- Situación general:
- Un proceso de éxito/fracaso está caracterizado por la probabilidad (proporción, tasa o porcentaje) de éxito \(p\).
- Inferencia “estimar”" dicha proporción
- Con un valor concreto
- Con un intervalo de confianza
- Inferencia “contrastar” sobre dicha proporción:
- si dicha proporción vale un “presunto” valor (es decir, \(p = p_0\)),
- o bien si no lo es, con una de las tres opciones \(p \neq p_0\), \(p < p_0\) o \(p > p_0\).
- Es decir \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p \neq p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p < p_0 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p = p_0 \\ H_1: \ p > p_0 \end{array} \right.\)
- Dos procesos (independientes) de éxito/fracaso están caracterizados por sus probabilidades (proporciones, tasas o porcentajes) de éxito \(p_1\) y \(p_2\).
- Inferencia 1: estimar dichas proporciones
- Con dos valores concretos respectivos
- Con un intervalo de confianza para la diferencia \(p_1 - p_2\).
- Inferencia 2: contrastar si
- Ambas probabilidades coinciden (es decir, \(p_1 = p_2\)).
- o bien si no coinciden, con una de las tres opciones \(p_1 \neq p_2\), \(p_1 < p_2\) o \(p_1 > p_2\).
- Es decir \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 \neq p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 < p_2 \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ p_1 = p_2 \\ H_1: \ p_1 > p_2 \end{array} \right.\)
- FUNCIÓN
prop.test(x, n, p, alternative, conf.level)
:
- Argumentos:
x
: número de éxitos de la muestra (o vector con los dos números de éxitos de las dos muestras)
n
: tamaño de la muestra (o vector con los dos tamaños de las dos muestras)
p
: sólo si se hace el contraste:
- para una sola muestra, “presunto” valor de \(p\), es decir, \(p_0\) (vale \(0.5\) por defecto)
- para dos muestras, dejar su valor por defecto (
NULL
) para contrastar la igualdad de las dos proporciones.
alternative
: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided"
(para \(\neq\)), pero se debe cambiar a "greater"
(si es \(>\)) o a "less"
(si es \(<\)).
conf.level
: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: la estimación puntual de la \(p\) si es una muestra (o de \(p_1\) y \(p_2\) si son dos muestras).
confidence interval
: el intervalo de confianza para la \(p\) (si es una muestra), o para la diferencia \(p_1 - p_2\) (si son dos muestras).
p-value
: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
EJERCICIO 1: Un alumno quiere valorar su tasa de éxito en preguntas de Estadística. Para ello coge problemas al azar de un libro, y los resuelve, de modo que al final de la sesión, ha resuelto correctamente \(19\) de los \(30\) problemas atacados.
- Calcula la estimación puntual de la “probabilidad de resolver correctamente un problema” de este alumno.
- Calcula un intervalo de confianza para dicha probabilidad, usando un nivel del confianza del \(90\)%.
- Sol.: \(p \in [0.4668433, 0.7753366]\) con una confianza del \(90\)%
- El alumno quiere demostrar que su eficacia de resolver problemas es superior al 50%. ¿Que dicen los datos si quiere una significación del \(5\)%?
- Sol.: Quiere demostrar \(H_1: \ p > 0.5\), y el contraste devuelve un \(p\)-valor = \(0.1006\). Como \(p\)-valor \(>\) \(\alpha\), entonces debe aceptar \(H_0\), por lo que no demuestra su eficacia superior al \(50\)%.
FIN EJERCICIO 1
5. Inferencia sobre la igualdad de varianzas de dos poblaciones normales
- Ejemplo: es conocido que la media de alturas en las poblaciones de hombres y muejres es distinta. ¿Lo es también la dispersión?
- Situación general:
- Dos procesos modelizados por sendas variables continuas normales \(X\) e \(Y\) con varianzas \(\sigma_1^2\) y \(\sigma_2^2\) respectivas.
- Inferencia “estimar” el cociente de ambas varianzas
- Con un valor concreto.
- Con un intervalo de confianza
- Inferencia “contrastar” sobre el cociente de ambas varianzas:
- si dicho cociente vale un “presunto” valor (normalmente \(1\), que sería la igualdad de ambas varianzas)
- o bien si no lo vale.
- Es decir \(\left\{ \begin{array}{l} H_0: \ \sigma^2_X = \sigma^2_Y \\ H_1: \ \sigma^2_X \neq \sigma^2_Y \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \sigma^2_X = \sigma^2_Y \\ H_1: \ \sigma^2_X < \sigma^2_Y \end{array} \right.\) o bien \(\left\{ \begin{array}{l} H_0: \ \sigma^2_X = \sigma^2_Y \\ H_1: \ \sigma^2_X > \sigma^2_Y \end{array} \right.\)
- FUNCIÓN
var.test(x, y, ratio, alternative, mu, conf.level)
:
- Argumentos:
x
: datos de la primera muestra.
y
: datos de la segunda muestra (si hay).
ratio
: sólo si se hace el contraste. “Presunto” cociente de varianzas. Por defecto vale \(1\), y sirve para contrastar que sean iguales.
alternative
: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided"
(para \(\neq\)), pero se debe cambiar a "greater"
(si es \(>\)) o a "less"
(si es \(<\)).
conf.level
: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: las estimaciones puntuales.
confidence interval
: el intervalo de confianza.
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
6. Un contraste de normalidad
- Si la muestra es pequeña, sólo podemos usar inferencia sobre la media cuando podamos creer que los datos vienen de un modelo normal
- Hay muchos contrastes que ayudan a decidir si una muestra es compatible con el modelo normal
- El contraste es \(\left\{ \begin{array}{l} H_0: \ \text{la muestra viene de un modelo normal} \\ H_1: \ \text{No } H_0 \end{array} \right.\)
- Los contrastes no son infalibles (y mucho menos para muestras pequeñas), por lo que hay que ser precavidos con esto.
- Uno de los muchos contrastes de normalidad implementados en R, es el de Shapiro-Wilks.
- FUNCIÓN
shapiro.test(x)
:
- Argumentos:
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
7. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la bondad de ajuste
- Ejemplo: un dado se usa para un juego de azar, y se sospecha que no está equilibrado, ¿cómo ponerlo a prueba?
- Situación general:
- Podemos escribir el “presunto modelo” en forma de tabla de probabilidades (ver tabla más abajo)
- Podemos obtener una muestra y reprensentarla en tabla de frecuencias
- Inferencia: contrastar si la muestra es compatible con el modelo (es decir, la tabla de probabilidades)
. |
\(X\) |
\(x_1\) |
\(x_2\) |
… |
\(x_k\) |
. |
\(f(x)\) |
\(p_1\) |
\(p_2\) |
… |
\(p_k\) |
. |
\(x_i\) |
\(x_1\) |
\(x_2\) |
… |
\(x_k\) |
. |
\(n_i\) |
\(n_1\) |
\(n_2\) |
… |
\(n_k\) |
- Si se sospecha que el proceso ya no sigue el “presunto” modelo, y se quiere poner a prueba, se plantea el contraste:
- \(\left\{ \begin{array}{l} H_0: \ \text{la muestra se ajusta al "presunto" modelo} \\ H_1: \ \text{No } H_0 \end{array} \right.\)
- FUNCIÓN
chisq.test(x, p)
- Argumentos:
x
: vector de las frecuencias absolutas de la muestra (suele ser el resultado de table()
o bien directamente le vector c(
\(n_1\) ,
\(n_2\) ,
\(\ldots\) ,
\(n_k\) )
)
p
: vector de probabilidades de la tabla, es decir c(
\(p_1\) ,
\(p_2\) ,
\(\ldots\) ,
\(p_k\) )
. Por defecto son todos iguales
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
Warning
: mensaje de aviso si se está usando indebidamente el contraste.
EJERCICIO 3: Una muestra presenta los valores \(0\), \(1\), \(2\) y \(3\) con frecuencias respectivas \(15\), \(35\), \(28\) y \(19\). Se presume que el modelo viene dado por las probabilidades \(P(X=0) = 0.2\), \(P(X=1) = 0.3\), \(P(X=2) = 0.3\), \(P(X=3) = 0.2\). ¿La muestra es compatible con dicho modelo usando una significación del \(10\)%?
- Sol.: Se obtiene un \(p\)-valor = \(0.5233365 > 0.1\), por lo que se acepta \(H_0\), es decir, que la muestra sí es compatible con el modelo.
FIN EJERCICIO 3
8. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la independiencia de dos variables cualitativas
- Ejemplo: ¿es independiente el sexo de la lateralidad (uso de una mano u otra)? Si alguien piensa que no, ¿cómo ponerlo a prueba?
- Situación general:
- Se observan conjuntamente dos variables \(X\) e \(Y\) cualitativas.
- Se puede disponer de las dos columnas de datos \((X,Y)\) o bien de la tabla de frecuencias conjuntas de ambas.
- Inferencia: contrastar si \(X\) e \(Y\) son independientes
- \(\left\{ \begin{array}{l} H_0: \ X \text{ e } Y \text{ son independientes} \\ H_1: \ \text{No } H_0 \end{array} \right.\)
- FUNCIÓN
chisq.test(x, y)
- Argumentos:
x
: vector con los datos de \(X\), o bien matriz con la tabla de frecuencias conjuntas (que puede obtenerse a partir de table()
sobre los datos originales, o bien escribirse directamente usando matrix(...)
).
y
: vector con los datos de \(Y\), o nada, si ya está todo en x
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
Warning
: mensaje de aviso si no se cumplen ciertas condiciones técnicas para usarlo.
- Recordatorio: para definir una matriz en R, se incluye el siguiente ejemplo:
- \(\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}\)
matrix(data=c(1,2,3,4,5,6), ncol=3, byrow=TRUE)
- se indican las entradas de la matriz, el número de columnas que tendrá, y si se quieren poner por filas.
EJERCICIO 4: Una muestra contiene \(82\) hombres diestros, \(8\) hombres zurdos, \(59\) mujeres diestras y \(11\) mujeres zurdas. ¿La muestra es compatible con que la lateralidad es independiente del sexo, usando una significación del \(5\)%?
- Sol.: Se obtiene un \(p\)-valor = \(0.281197 > 0.05\), por lo que se acepta \(H_0\), es decir, que la muestra sí es compatible con que sean independientes.
FIN EJERCICIO 4: