0. DATOS
- Carga las áreas de trabajo almacenadas en los archivos
ei1012-1314-datos-encuesta.RData
y ei1012-1314-la-s4-datos.RData
que encontrarás en AV.
1. DE LA MUESTRA A LA POBLACIÓN
- Una población de datos se supone modelizada por una variable aleatoria \(X\)
- Se llama inferencia estadística a cualquier método que pretende averiguar características de \(X\) a partir de sus muestras.
- A veces se puede suponer que \(X\) sigue un modelo conocido (binomial, Poisson, exponencial, uniforme, normal, etc) pero se desconocen los parámetros concretos.
- Se llama inferencia paramétrica a la labor de indagar acerca de los parámetros. Hay dos tipos de inferencia paramétrica:
- Estimación de parámetros: deducir un valor razonable para el parametro
- Estimación puntual: dar un valor concreto (por el método de los momentos, por el método de la máxima verosimilitud, o por otros métodos)
- Estimación por intervalo de confianza: dar un intervalo que contendrá la estimación con cierto nivel de confianza.
- Contraste de hipótesis paramétrico: procedimiento mediante el que se acepta o rechaza un supuesto valor del parámetro en base a las muestras.
- Ejemplos:
- Una candidatura a unas elecciones tendrá un porcentaje de votos en las elecciones. Se intentará inferir ese porcentaje mediante encuestas.
- Un proceso de fabricación tendrá una tasa de defectuosidad a largo plazo. Si es grande, habría que arreglar el proceso. Una muestra de los primeros productos ayudará a estimar esa tasa.
- Dos algoritmos se comparan en velocidad alplicándolos a distintas bases de datos. A veces gana uno, a veces gana otro. ¿Se puede afirmar que uno de los dos es más rápido que el otro?
2. METODOLOGÍA DE LOS CONTRASTES DE HIPÓTESIS
- Se parte de una hipótesis inicial (denotada \(H_0\)), que se considera cierta hasta que se demuestre lo contrario.
- Por ejemplo, que dos algoritmos son igual de rápidos, que dos máquinas tienen una misma tasa de defectuosos, etc.
- Se quiere demostrar con datos una hipótesis alternativa (denotada \(H_1\))
- Por ejemplo, que mi algoritmo es más rápido que otro, que mi máquina hace menos productos defectuosos que otra máquina, etc.
- Se plantea el contraste:
- \(H_0\): una afirmación sobre \(X\), vs
- \(H_1\): otra afirmación sobre \(X\), incompatible con \(H_0\)
- Objetivo: decidir entre aceptar \(H_0\) o rechazarla (en favor de \(H_1\)) minimizando riesgos de error
- Dos tipos de error:
- Error tipo I: probabilidad de rechazar \(H_0\) cuando es verdadera
- Error tipo II: probabilidad de aceptar \(H_0\) cuando es falsa
- Normalmente es muy importante “controlar” el error tipo I, por eso:
- Nivel de significación: cota superior del error tipo I (denotada por \(\alpha\))
- Para cada contraste, la estadística aporta:
- Estadísticos de contraste: que siguen un modelo conocido cuando \(H_0\) es cierta, de modo que podemos intuir los valores más probables, y los más “improbables”, cuando \(H_0\) es cierta.
- \(p\)-valor: probabilidad de valores tan improbables o más que el observado para la muestra (para \(H_0\) pero en favor de \(H_1\))
- Procedimiento de contraste de significación \(\alpha\): rechazar \(H_0\) si \(p\)-valor \(< \alpha\)
- Como mucho fallará en una proporción \(\alpha\), cuando \(H_0\) es cierta.
- No sabemos cuánto fallará cuando \(H_0\) es falsa, depende de lo que diga \(H_1\).
3. NIVEL DE CONFIANZA Y SIGNIFICACIÓN
- Otra forma de resolver contrastes de significación \(\alpha\) (sobre un parámetro) es:
- Rechazar \(H_0\) si el valor supuesto en \(H_0\) no pertenece al intervalo de confianza de nivel \(1-\alpha\)
- Por eso, nivel de confianza y significación son complementarios (a uno)
4. INFERENCIA SOBRE LA PROPORCIÓN \(p\) (O LA COMPARACIÓN DE PROPORCIONES) EN PRUEBAS DE BERNOULLI
- Ejemplos:
- Analizar una moneda sospechosa de no ser equilibrada. Llamando \(p\) a la probabilidad de obtener cara, el contraste es
- \(H_0: \ p = 0.5\) (equilibrada, en principio)
- \(H_1: \ p \neq 0.5\) (no equilibrada)
- Ver si un nuevo tratamiento \(X\) mejora el tratamiento actual \(Y\). Llamando \(p_X\) y \(p_Y\) a los porcentajes de efectividad de ambos tratamientos, el contraste es:
- \(H_0: \ p_X = p_Y\) (igual porcentaje de efectividad, en principio)
- \(H_1: \ p_X > p_Y\) (mejor el nuevo)
- Dos posibilidades:
- Un proceso de tipo éxito-fracaso. Se puede modelizar como \(X \sim Be(p)\), pruebas de Bernoulli de parámetro \(p\) desconocido.
- Inferencias: - Estimación puntual de \(p\) (
sample estimates
) - Estimación de \(p\) por intervalo de confianza (confidence interval
) - Contraste de hipótesis: - \(H_0\): \(p=p_0\) (donde \(p_0\) es un valor concreto) - \(H_1\): \(p \neq p_0\) (o bien \(<\) o bien \(>\))
- Dos procesos de tipo éxito-fracaso, Se pueden modelizar como \(X \sim Be(p_X)\) e \(Y \sim Be(p_Y)\), pruebas de Bernoulli independientes de parámetros \(p_X\) y \(p_Y\) desconocidos, respectivamente.
- Inferencias:
- Estimación puntual de \(p_X\) y \(p_Y\) (
sample estimates
)
- Estimación de \(p_X-p_Y\) por intervalo de confianza (
confidence interval
)
- Contraste de hipótesis:
- \(H_0\): \(p_X = p_Y\) (donde \(p_0\) es un valor concreto)
- \(H_1\): \(p_X \neq p_Y\) (o bien \(<\) o bien \(>\))
- Estos procesos los implementa una sola función de R:
- FUNCIÓN
prop.test(x, n, p, alternative, conf.level)
:
- Argumentos:
x
: número de éxitos (o vector con los dos números de éxitos de los dos procesos)
n
: tamaño de la muestra (o vector con los dos tamaños de las dos muestras si son dos procesos)
p
: valor de \(p_0\) para el contraste de una \(p\), o dejar a NULL
si es para contrastar igualdad de dos proporciones).
alternative
: dirección de \(H_1\). Vale "two-sided"
por defecto, para \(\neq\), pero se debe poner "greater"
si es \(>\) o "less"
si \(<\)
conf.level
: nivel de confianza para el intervalo de confianza
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: las estimaciones puntuales
confidence interval
: el intervalo de confianza
p-value
: \(p\)-valor del estadístico de contraste, base para la decisión del contraste
6. INFERENCIA SOBRE EL COCIENTE ENTRE DOS VARIANZAS \(\sigma_X^2/\sigma_Y^2\) EN MODELOS NORMALES
- Dos procesos modelizados por sendas variables \(X\) e \(Y\) normales.
- Inferencias:
- Estimación puntual de \(\sigma_X^2/\sigma_Y^2\) (
sample estimates
)
- Estimación de \(\sigma_X^2/\sigma_Y^2\) por intervalo de confianza (
confidence interval
)
- Contraste de hipótesis:
- \(H_0\): \(\sigma_X^2/\sigma_Y^2 = k\) (donde \(k\) es un valor concreto, que vale \(1\) cuando se desea comparar la igualdad de las varianzas)
- \(H_1\): \(\sigma_X^2/\sigma_Y^2 \neq k\) (o bien \(<\) o bien \(>\))
- Estos procesos los implementa una sola función de R:
- FUNCIÓN
var.test(x, y, ratio, alternative, mu, conf.level)
:
- Argumentos:
x
: datos de muestra de \(X\)
y
: datos de muestra de \(Y\) (si hay)
ratio
: valor de \(k\) para el contraste (\(1\) si es para contrastar la igualdad de dos varianzas)
alternative
: dirección de \(H_1\). Vale "two-sided"
por defecto, para \(\neq\), pero se debe poner "greater"
si es \(>\) o "less"
si \(<\)
conf.level
: nivel de confianza para el intervalo de confianza
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
sample estimates
: las estimaciones puntuales
confidence interval
: el intervalo de confianza
p-value
: \(p\)-valor del estadístico de contraste, base para la decisión del contraste
6. UN CONTRASTE DE NORMALIDAD
- Cuando la muestra es pequeña, sólo se puede hacer inferencia sobre la media si los datos vienen de un modelo normal
- Hay muchos contrastes que ayudan a decidir si una muestra es compatible con el modelo normal
- \(H_0\): la muestra viene de un modelo normal
- \(H_1\): no \(H_0\)
- Los contrastes no son infalibles (y mucho menos para muestras pequeñas), por lo que hay que ser precavidos con esto.
- Un contraste es el de Shapiro-Wilks, implementado en R.
- FUNCIÓN
shapiro.test(x)
:
- Argumentos:
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, base para la decisión del contraste
7. UN CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE
- Supongamos que un proceso se puede modelizar a priori como una variable aleatoria \(X\) cuya función \(f(x)\) se puede escribir en forma de tabla de probabilidades:
- Si se sospecha que el proceso ya no sigue esa tabla de probabilidades, y se quiere poner a prueba hay que obtener una muestra y plantear el contraste:
- \(H_0\): la muestra se ajusta a la tabla de probabilidades
- \(H_1\): no \(H_0\)
- Una forma de resolver este contraste es el contraste de bondad de ajuste ji-cuadrado de Pearson, implementado en R:
- FUNCIÓN
chisq.test(x, p)
- Argumentos:
x
: vector de las frecuencias absolutas de la muestra (suele ser el resultado de table()
)
p
: vector de probabilidades de la tabla
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, base para la decisión del contraste
Warning
: mensaje de aviso de mala aproximación
8. OTRO CONTRASTE NO PARAMÉTRICO PARA LA INDEPENDENCIA DE DOS VARIABLES CUALITATIVAS
- Supongamos que un proceso consiste en observar dos variables \(X\) e \(Y\) cualitativas.
- Una muestra de ese proceso sería una tabla de frecuencias conjuntas (o congingencia)
- Se puede poner a prueba la independencia entre \(X\) e \(Y\) con otro contraste ji-cuadrado de Pearson, implementado en R:
- FUNCIÓN
chisq.test(x, y)
- Argumentos:
x
: vector con los datos de \(X\), o bien matriz con la tabla de frecuencias conjuntas (que puede obtenerse a partir de table()
sobre los datos originales, o bien introducir a mano la matriz, como se indica más abajo)
y
: vector con los datos de \(Y\), o nada, si ya está todo en x
- Devuelve: un objeto complejo que se muestra parcialmente en pantalla, del que interesa:
p-value
: \(p\)-valor del estadístico de contraste, base para la decisión del contraste
Warning
: mensaje de aviso de mala aproximación
- Nota: para definir una matriz en R, se incluye el siguiente ejemplo:
- \(\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}\)
matrix(data=c(1,2,3,4,5,6), ncol=3, byrow=TRUE)
- se indican las entradas de la matriz, el número de columnas que tendrá, y si se quieren poner por filas.
9. EJERCICIOS
- EJERCICIO 1
- 1.1. La variable
x1
contiene datos que supondremos de una normal de media ‘mu’ desconocida.
- Calcula la media de la muestra.
- Realiza inferencia sobre la verdadera \(\mu\) del modelo que ha generado los datos.
- (b1) Estimación puntual de la media.
- (b2) Intervalo de confianza al 90% para la verdadera media mu.
- (b3) ¿Se puede admitir que la media es 5 con una significación del 10% contra que la media no es 5?
- (b4) ¿Se puede admitir que la media es 5 con una significación del 10% contra que la media es mayor que 5?
- Sol.: (a) 5.192, (b1) 5.192, (b2) [4.986376; 5.397624], (b3) p-valor = 0.1232 > 0.1 (\(\alpha\)), por tanto ACEPTAMOS \(H_0: \mu=5\) por lo que la respuesta es SÍ. (b4) p-valor = 0.06162 < 0.1 (alpha), por tanto RECHAZAMOS \(H0: \mu=5\) por lo que la respuesta es NO.
- 1.2. Los datos de la variables
x2
y x3
recogen los tiempos de entrenamiento de 2 atletas.
- Calcula el tiempo medio de cada atleta.
- Si suponemos que los tiempos de los dos atletas siguen ambos modelos normales, ¿se puede aceptar que tienen la misma media desconocida usando una significación del 1%?
- Calcula el intervalo de confianza para la diferencia de las dos medias usando un nivel de confianza del 90%.
- Sol.: (a) 10.202 y 10.137 resp., (b) p-valor = 0.05658 > 0.01 (\(\alpha\)), por tanto ACEPTAMOS \(H_0: \mu_X = \mu_Y\) por lo que la respuesta es SÍ, (c) [0.009680793; 0.120319207].
- 1.3. La hoja de datos
x4
recogen los tiempos de dos operarios en realizar una serie de tareas (las mismas tareas para cada uno).
- Calcula el tiempo medio por tarea de cada operario.
- Si suponemos que los tiempos siguen ambos modelos normales, ¿se puede aceptar que ambos operarios son igual de eficientes (misma media desconocida) usando una significación del 5%?
- Sol.: (a) 79.31 y 79.7 resp., (b) p-valor = 0.868 > 0.05 (alpha), por tanto ACEPTAMOS \(H0: \mu_X = \mu_Y\) por lo que la respuesta es SÍ.
- EJERCICIO 2
- Contrasta si se puede aceptar o no que las varianzas (desconocidas) de los tiempos de los atletas son iguales usando una significación del 10%.
- Sol.: p-valor = 0.6485 > 0.10 (\(\alpha\)), por tanto ACEPTAMOS H0 (igualdad de varianzas) por lo que la respuesta es SÍ.
- EJERCICIO 3
- 3.1. Un alumno se quiere presentar a las elecciones de delegado de curso si puede aceptar que va a tener un % de voto del 33%. Para ello pregunta a 13 compañeros, entre los que 3 declaran que le votarían. ¿Qué decisión debería tomar si asume una significación del 10%?
- Sol.: p-valor = 0.6412 > 0.10 (\(\alpha\)), por tanto ACEPTARÍA \(H_0 p=0.33\) (aviso, la aproximación puede ser incorrecta) por lo que la respuesta es SÍ (pero con reparos).
- 3.2. Se quiere comparar la eficacia de dos tratamientos. Uno de ellos se aplica a un grupo de 25 personas de las que 14 mejoran. El otro se aplica a un grupo de 33 personas de las que sólo 11 mejoran.
- Calcula el procentaje de éxito de cada tratamiento.
- Calcula un intervalo de confianza para cada \(p\) usando un nivel de confianza del 90%.
- Contrasta si se puede aceptar que los dos tratamientos tienen la misma eficacia (misma ‘p’) usando una significación del 10%.
- Contrasta si se puede aceptar que los dos tratamientos tienen la misma eficacia (misma ‘p’) usando una significación del 10% contra la hipótesis de que el primero es mejor que el segundo.
- Sol.: (a) 56% y 33.33% resp., (b) [0.3802979; 0.7266203] y [0.2030080; 0.4916309] resp., (c) p-valor = 0.1447 > 0.10 (\(\alpha\)), por tanto ACEPTAMOS \(H_0: p_X = p_Y\) (la igualdad de eficacias) por lo que la respuesta es SÍ, (d) p-valor = 0.07235 < 0.10 (\(\alpha\)), por tanto RECHAZAMOS \(H_0: p_X = p_Y\) (la igualdad de eficacias) por lo que la respuesta es NO.
- EJERCICIO 4
- Contrasta si se ha hecho bien en el ejercicio 1.1. al asumir que los datos de la variable
x1
venían de una normal usando una significación del 10%.
- Sol: p-valor = 0.0874 < 0.10 (\(\alpha\)), por tanto RECHAZAMOS \(H_0:\) (modelo normal), por lo que la respuesta es NO.
- EJERCICIO 5
- Contrasta si se puede aceptar que el número de respuestas correctas de alumnos a un examen tipo test de 5 preguntas sigue el modelo binomial de n = 10 y p = 0.5, usando una significación del 10%, y donde los datos están en el vector
x5
.
- Ayuda:
dbinom(...)
para tener las probabilidades del modelo binomial en forma de tabla.
- Sol.: p-valor = 0.08864 < 0.10 (\(\alpha\)) por tanto RECHAZAMOS \(H_0:\) (modelo binomial del enunciado), por lo que la respuesta es NO. Ojo al aviso de aproximación incorrecta.
- EJERCICIO 6
- Según la muestra de la encuesta realizada al inicio de curso, contrasta si se puede aceptar que las variables sobre internet en el móvil y el sistema operativo en PC son independientes, usando un nivel de significación del 10%.
- Sol.: p-valor = 0.7671 > 0.10 (\(\alpha\)) por tanto ACEPTAMOS \(H_0:\) (independientes), por lo que la respuesta es SÍ.