0. Los datos de la práctica
- Copia el siguiente bloque de código en la consola de R para cargar los datos de la práctica:
load(url('http://goo.gl/tqMDyM'))
Se utilizarán en la sección de ejercicios.
1. Inferencia estadística
- Cálculo de probabilidades: proceso de indagar sobre las muestras a partir del modelo.
- Conocemos perfectamente el modelo que sigue la variable aleatoria \(X\) (es decir, su \(f(x)\)).
- El próximo valor observado de \(X\) todavía no existe, y puede ser uno u otro (por ejemplo, \(X=3\), \(X=3.141592654\), etc.).
- El cálculo de probabilidades mide el grado de creencia de que el próximo valor observado sea uno concreto, o pertenezca a una zona de la recta real (por ejemplo, \(P(X=3)\), \(P(3.14 < X \leq 3.15)\), etc.).
- Inferencia estadística: proceso de indagar sobre el modelo a partir de las muestras.
- El modelo que sigue la variable aleatoria \(X\) es total o parcialmente desconocido, pero no es aleatorio.
- O bien no conocemos nada.
- O bien podemos deducir que sigue un modelo concreto (binomial, binomial negativo, hipergeométrico, Poisson, exponencial, uniforme, normal, etc.), pero es imposible conocer los valores verdaderos o exactos de los parámetros (\(p\) de la binomial y binomial negativa, \(K\) de la hipergeométrica, \(\mu\) de Poisson, \(\lambda\) de la exponencial, \(a\) y \(b\) de la uniforme, \(\mu\) y \(\sigma^2\) de la mormal, etc.).
- Sólo las muestras observadas pueden ayudar a intuir los valores desconocidos del modelo.
2. Dos tipos de inferencia
- Estimación de parámetros: intento de aproximar el valor del parámetro desconocido
- Contraste de hipótesis: intento de verificar si el modelo de \(X\) es el que se supone a priori, o no.
2.1. Estimación de parámetros
- Una muestra ayuda a “estimar” (o aproximar) el valor del parámetro
- Estimación puntual: se calcula el valor más creíble a partir de la muestra
- Estimación por intervalo de confianza: se calcula un intervalo de valores más creíbles a partir de la muestra y de un nivel de confianza dado por el usuario, por ejemplo \(0.8\), \(0.9\), \(0.95\), \(0.99\), etc. (o en porcentajes, \(80\)%, \(90\)%, \(95\)%, \(99\)%, etc.).
2.2. Contraste de hipótesis
- ¿Cuándo se plantea? Cuando el modelo cumple una “presunta” condición inicial, y hay serias sospechas de que ya no la cumple.
- \(\left\{ \begin{array}{l} H_0: \ \text{hipótesis nula} \\ H_1: \ \text{hipótesis alternativa} \end{array} \right.\)
- La hipótesis nula (\(H_0\)) se supone cierta hasta que una muestra demuestre lo contrario.
- La hipótesis alternativa (\(H_1\)) se sospecha o se quiere demostrar, pero se supone falsa hasta que una muestra demuestre lo contrario.
- Procedimiento de contraste:
- Muestrear: se observa una muestra
- Tomar una decisión: según lo compatible que sea la muestra con \(H_0\).
- Aceptar \(H_0\) (por creer que la muestra es compatible con ella)
- Rechazar \(H_0\) (por creer que la muestra es muy incompatible con ella). Eso implica creer en \(H_1\).
- Errores en la decisión: hay que intentar que sean lo menor posible, pero casi siempre son contrapuestos
- Error tipo I: rechazar \(H_0\) cuando es cierta (es el más grave).
- Error tipo II: aceptar \(H_0\) cuando es falsa.
- Nivel de significación del contraste: es una cota superior de la probabilidad del Error tipo I. Se denota por \(\alpha\) y la impone el usuario según su criterio.
- UN PROCEDIMIENTO ESTÁNDAR PARA CONTRASTES DE HIPÓTESIS HABITUALES:
- Elegir un nivel de significación \(\alpha\): por ejemplo, \(0.001\), \(0.01\), \(0.05\),… (o en forma de porcentaje, \(0.1\)%, \(1\)%, \(5\)%,…)
- Muestrear
- Calcular el estadístico de contraste (depende del contraste concreto).
- Calcular su \(p\)-valor (que mida la probabilidad de observar un estadístico de contraste tan incompatible con \(H_0\) o más aún, que el observado en la muestra.
- Decisión:
- RECHAZAR \(H_0\) si \(p\)-valor \(< \alpha\) (y aceptar en caso contrario)
- Esto nos asegura un nivel de significación \(\alpha\).
- OTRO PROCEDIMIENTO ESTÁNDAR PARA CONTRASTES DE HIPÓTESIS PARAMÉTRICOS:
- Si el contraste consiste en “desmentir” o no un “presunto” valor \(\theta_0\) de un parámetro \(\theta\) (que puede ser \(p\), \(\lambda\), \(\mu\), \(\sigma^2\), etc.).
- \(\left\{ \begin{array}{l} H_0: \ \theta = \theta_0 \\ H_1: \ \theta \neq \theta_0 \end{array} \right.\)
- Se puede calcular el intervalo de confianza para \(\theta\) de nivel de confianza \(1 - \alpha\).
- Decisión:
- ACEPTAR \(H_0\) si el presunto valor \(\theta_0\) pertenece al intervalo de confianza calculado (y rechazar en caso contrario)
- Esto nos asegura un nivel de significación \(\alpha\).
4. Inferencia sobre la probabilidad de éxito \(p\) de una prueba de Bernoulli (o dos probabilidades de éxito \(p_1\) y \(p_2\) de dos pruebas de Bernoulli independientes)
- Ejemplos:
- Estimar la proporción (o porcentaje a largo plazo) de efectividad de un tratamiento, de producción defectuosa, de favorables a una iniciativa, etc.
- Una moneda se lanza \(100\) veces dando \(37\) caras. ¿Cuál es la probabilidad estimada de “cara”?
- Una producción es serie saca \(5\) defectusos de los últimos \(300\) producidos. ¿Cuál es la tasa estimada de unidades defectuosas?
- Contrastar si esa proporción puede ser o no un valor preconcebido.
- Una moneda “presuntamente” equilibrada está bajo sospecha de trucaje: ¿\(p = 0.5\), o bien \(p \neq 0.5\)?
- Una producción es serie tiene una “presunta” tasa de defectos del \(1\)%, pero parace que se ha desajustado: ¿\(p = 0.01\), o bien \(p > 0.01\)?
- Contrastar si un nuevo tratamiento mejora al actual tratamiento.
- Un tratamiento nuevo dice ser más efectivo (cura más pacientes) que el actual. ¿Es eso verdad? Si \(p_A\) es la tasa de curación del tratamiento actual y \(p_N\) es la tasa de curación del tratamiento nuevo, ¿\(p_N > p_A\), o bien es un bulo y \(p_N = p_A\)?
- Situación general:
- Un proceso de éxito/fracaso está caracterizado por la probabilidad (proporción, tasa o porcentaje) de éxito \(p\).
- Inferencia 1: estimar dicha proporción
- Con un valor concreto
- Con un intervalo de confianza
- Inferencia 2: contrastar:
- si dicha proporción vale un “presunto” valor (es decir, \(p = p_0\)),
- o bien si no lo es, con una de las tres opciones \(p \neq p_0\), \(p < p_0\) o \(p > p_0\).
- Dos procesos (independientes) de éxito/fracaso están caracterizados por sus probabilidades (proporciones, tasas o porcentajes) de éxito \(p_1\) y \(p_2\).
- Inferencia 1: estimar dichas proporciones
- Con dos valores concretos respectivos
- Con un intervalo de confianza para la diferencia \(p_1 - p_2\).
- Inferencia 2: contrastar si
- Ambas probabilidades coinciden (es decir, \(p_1 = p_2\)).
- o bien si no coinciden, con una de las tres opciones \(p_1 \neq p_2\), \(p_1 < p_2\) o \(p_1 > p_2\).
- FUNCIÓN
prop.test(x, n, p, alternative, conf.level)
:
- Argumentos:
x
: número de éxitos de la muestra (o vector con los dos números de éxitos de las dos muestras)
n
: tamaño de la muestra (o vector con los dos tamaños de las dos muestras)
p
: sólo si se hace el contraste:
- para una sola muestra, “presunto” valor de \(p\), es decir, \(p_0\) (vale \(0.5\) por defecto)
- para dos muestras, dejar su valor por defecto (
NULL
) para contrastar la igualdad de las dos proporciones.
alternative
: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided"
(para \(\neq\)), pero se debe cambiar a "greater"
(si es \(>\)) o a "less"
(si es \(<\)).
conf.level
: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: la estimación puntual de la \(p\) si es una muestra (o de \(p_1\) y \(p_2\) si son dos muestras).
confidence interval
: el intervalo de confianza para la \(p\) (si es una muestra), o para la diferencia \(p_1 - p_2\) (si son dos muestras).
p-value
: el \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
EJERCICIO 1: Un alumno quiere valorar su tasa de éxito en preguntas de Estadística. Para ello coge problemas al azar de un libro, y los resuelve, de modo que al final de la sesión, ha resuelto correctamente \(19\) de los \(30\) problemas atacados.
- Calcula la estimación puntual de la “probabilidad de resolver correctamente un problema” de este alumno.
- Calcula un intervalo de confianza para dicha probabilidad, usando un nivel del confianza del \(90\)%.
- Sol.: \(p \in [0.4668433, 0.7753366]\) con una confianza del \(90\)%
- El alumno quiere demostrar que su eficacia de resolver problemas es superior al 50%. ¿Que dicen los datos si quiere una significación del \(5\)%?
- Sol.: Quiere demostrar \(H_1: \ p > 0.5\), y el contraste devuelve un \(p\)-valor = \(0.2012426\). Como \(p\)-valor \(>\) \(\alpha\), entonces debe aceptar \(H_0\), por lo que no demuestra su eficacia superior al \(50\)%.
FIN EJERCICIO 1
6. Inferencia sobre la igualdad de varianzas de dos poblaciones normales
- Ejemplo: es conocido que la media de alturas en las poblaciones de hombres y muejres es distinta. ¿Lo es también la dispersión?
- Situación general:
- Dos procesos modelizados por sendas variables continuas normales \(X\) e \(Y\) con varianzas \(\sigma_1^2\) y \(\sigma_2^2\) respectivas.
- Inferencia 1: estimar el cociente de ambas varianzas
- Con un valor concreto.
- Con un intervalo de confianza
- Inferencia 2: contrastar:
- si dicho cociente vale un “presunto” valor (normalmente \(1\), que sería la igualdad de ambas varianzas)
- o bien si no lo vale.
- FUNCIÓN
var.test(x, y, ratio, alternative, mu, conf.level)
:
- Argumentos:
x
: datos de la primera muestra.
y
: datos de la segunda muestra (si hay).
ratio
: sólo si se hace el contraste. “Presunto” cociente de varianzas. Por defecto vale \(1\), y sirve para contrastar que sean iguales.
alternative
: sólo si se hace el contraste. Dirección de \(H_1\). Por defecto vale "two-sided"
(para \(\neq\)), pero se debe cambiar a "greater"
(si es \(>\)) o a "less"
(si es \(<\)).
conf.level
: Nivel de confianza. Sólo si se pide el intervalo de confianza. Su valor por defecto es 0.95
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: las estimaciones puntuales.
confidence interval
: el intervalo de confianza.
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
6. Un contraste de normalidad
- Cuando la muestra es pequeña, sólo se puede hacer inferencia sobre la media si los datos vienen de un modelo normal
- Hay muchos contrastes que ayudan a decidir si una muestra es compatible con el modelo normal
- \(H_0\): la muestra viene de un modelo normal
- \(H_1\): no \(H_0\)
- Los contrastes no son infalibles (y mucho menos para muestras pequeñas), por lo que hay que ser precavidos con esto.
- Uno de los muchos contrastes de normalidad implementados en R, es el de Shapiro-Wilks.
- FUNCIÓN
shapiro.test(x)
:
- Argumentos:
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
7. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la bondad de ajuste
- Ejemplo: un dado se usa para un juego de azar, y se sospecha que no está equilibrado, ¿cómo ponerlo a prueba?
- Situación general:
- Podemos escribir el “presunto modelo” en forma de tabla de probabiliades (ver tabla más abajo)
- Podemos obtener una muestra y reprensentarla en tabla de frecuencias
- Inferencia: contrastar si la muestra es compatible con el modelo (es decir, la tabla de probabilidades)
. |
\(X\) |
\(x_1\) |
\(x_2\) |
… |
\(x_k\) |
. |
\(f(x)\) |
\(p_1\) |
\(p_2\) |
… |
\(p_k\) |
. |
\(x_i\) |
\(x_1\) |
\(x_2\) |
… |
\(x_k\) |
. |
\(n_i\) |
\(n_1\) |
\(n_2\) |
… |
\(n_k\) |
- Si se sospecha que el proceso ya no sigue el “presunto” modelo, y se quiere poner a prueba, se plantea el contraste:
- \(H_0\): la muestra se ajusta al “presunto” modelo
- \(H_1\): no \(H_0\)
- FUNCIÓN
chisq.test(x, p)
- Argumentos:
x
: vector de las frecuencias absolutas de la muestra (suele ser el resultado de table()
o bien directamente le vector c(
\(n_1\) ,
\(n_2\) ,
\(\ldots\) ,
\(n_k\) )
)
p
: vector de probabilidades de la tabla, es decir c(
\(p_1\) ,
\(p_2\) ,
\(\ldots\) ,
\(p_k\) )
. Por defecto son todos iguales
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
Warning
: mensaje de aviso si se está usando indebidamente el contraste.
EJERCICIO 3: Una muestra presenta los valores \(0\), \(1\), \(2\) y \(3\) con frecuencias respectivas \(15\), \(35\), \(28\) y \(19\). Se presume que el modelo viene dado por las probabilidades \(P(X=0) = 0.2\), \(P(X=1) = 0.3\), \(P(X=2) = 0.3\), \(P(X=3) = 0.2\). ¿La muestra es compatible con dicho modelo usando una significación del \(10\)%?
- Sol.: Se obtiene un \(p\)-valor = \(0.5233365 > 0.1\), por lo que se acepta \(H_0\), es decir, que la muestra sí es compatible con el modelo.
FIN EJERCICIO 3
8. El contraste (no paramétrico) Ji-cuadrado de Pearson sobre la independiencia de dos variables cualitativas
- Ejemplo: ¿es independiente el sexo de la lateralidad (uso de una mano u otra)? Si alguien piensa que no, ¿cómo ponerlo a prueba?
- Situación general:
- Se observan conjuntamente dos variables \(X\) e \(Y\) cualitativas.
- Se puede disponer de las dos columnas de datos \((X,Y)\) o bien de la tabla de frecuencias conjuntas.
- Inferencia: contrastar si \(X\) es independiente de \(Y\)
- \(H_0\): \(X\) e \(Y\) son independientes
- \(H_1\): no \(H_0\)
- FUNCIÓN
chisq.test(x, y)
- Argumentos:
x
: vector con los datos de \(X\), o bien matriz con la tabla de frecuencias conjuntas (que puede obtenerse a partir de table()
sobre los datos originales, o bien escribirse directamente).
y
: vector con los datos de \(Y\), o nada, si ya está todo en x
.
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, que sirve para tomar la decisión.
Warning
: mensaje de aviso si se está usando indebidamente el contraste.
- Recordatorio: para definir una matriz en R, se incluye el siguiente ejemplo:
- \(\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}\)
matrix(data=c(1,2,3,4,5,6), ncol=3, byrow=TRUE)
- se indican las entradas de la matriz, el número de columnas que tendrá, y si se quieren poner por filas.
EJERCICIO 4: Una muestra contiene \(82\) hombres diestros, \(8\) hombres zurdos, \(59\) mujeres diestras y \(11\) mujeres zurdas. ¿La muestra es compatible con que la lateralidad es independiente dle sexo, usando una significación del \(5\)%?
- Sol.: Se obtiene un \(p\)-valor = \(0.281197 > 0.05\), por lo que se acepta \(H_0\), es decir, que la muestra sí es compatible con que sean independientes.
FIN EJERCICIO 4: