Una muestra consta de los siguientes datos:
\[6.39, 5.98, 3.25, 7.98, 7.97\]
Sin embargo, al introducirlos en la calculadora, el técnico introduce, por error, los siguientes:
\[6.39, 598, 3.25, 7.98, 7.97\]
Calcula con tu calculadora habitual la media, mediana, desviación típica y varianza de los datos verdaderos, y de los que contienen el error. Finalmente, compara los resultados de las medias y medianas, y reflexiona cuál de ambas ha sido mas “robusta” y cuál mas “sensible”, de cara al error cometido por el técnico.
(Sol:
. | \(\overline{x}\) | \(\text{Me}\) | \(s\) | \(s^2\) |
---|---|---|---|---|
Antes | \(6.314\) | \(6.39\) | \(1.7333967\) | \(3.004664\) |
Después | \(124.718\) | \(7.97\) | \(236.6472896\) | \(56001.939656\) |
Comentario: la media es muy sensible al gazapo y la mediana no tanto: La varianza y desviación típica tambien son muy sensibles porque se calculan con las “desviaciones de los datos respecto de la media”. Tiempo estimado: 10 min).
Una muestra \(X\) tiene los estadísticos
\(\overline{x}\) | \(\widetilde{x}\) | \(s\) | \(s^2\) | \(x_{0.05}\) | \(x_{0.95}\) |
---|---|---|---|---|---|
\(2.6488396\) | \(2.1299282\) | \(2.1074098\) | \(4.4411762\) | \(0.4523501\) | \(6.4095503\) |
Si se crea una nueva variable, \(Y\), como transformación de \(X\), mediante la fórmula \(Y = 7.52 -7.79 X\), ¿cuáles serán los valores de los mismos estadíticos para la muestra de \(Y\)?
(Sol:
\(\overline{y}\) | \(\widetilde{y}\) | \(s_y\) | \(s_y^2\) | \(y_{0.05}\) | \(y_{0.95}\) |
---|---|---|---|---|---|
\(-13.1144604\) | \(-9.072141\) | \(16.4167226\) | \(269.5087817\) | \(-42.4103968\) | \(3.9961931\) |
Tiempo estimado: 10 min)
Calcula con tu calculadora habitual la media, desviación típica, cuasidesviación típica, varianza y cuasivarianza de los siguientes datos, expresados en forma de tabla de frecuencias absolutas:
\(x_i\) | \(n_i\) |
---|---|
0 | 21 |
1 | 25 |
2 | 20 |
3 | 5 |
4 | 23 |
5 | 7 |
(Sol: \(\overline{x} = 2.049505\), \(s = 1.6312313\), \(s^* = 1.6393672\), \(s^2 = 2.6609156\) y \(s^{*2} = 2.6875248\))
Relaciona cada valor de “media y varianza” con el histograma que más se ajuste a esos estadísticos:
(Sol: A=G, B=E, C=F y D=H)
Relaciona cada valor de “media y varianza” con el diagrama de caja que más se ajuste a esos estadísticos:
(Sol: A=G, B=E, C=H y D=F)
¿Cuál de las siguientes dos muestras se debe considerar que tiene los datos más homogéneos?
(Sol: como las medias son “bastante diferentes”, conviene comparar usando el coeficiente de variación. En ese caso, como \(CV_A = 1.998819\) y \(CV_B = 1.9988184\), se puede decir que ambas muestras son igual de homogéneas.)
Se recoge una muestra sobre el nivel de satisfacción de clientes de según el tipo de producto adquirido, y se resume en la siguiente tabla de frecuencias conjuntas (también llamada tabla de doble entrada o tabla de contingencia):
Prod/Satisfac | Insatisfecho | Indiferente | Satisfecho |
---|---|---|---|
Informática | 12 | 42 | 26 |
Ropa | 19 | 47 | 18 |
Alimentación | 7 | 17 | 12 |
Escribe:
(Sol: (1) las frecuencias relativas marginales son:
Insatisfecho | Indiferente | Satisfecho |
---|---|---|
0.19 | 0.53 | 0.28 |
((2)) las frecuencias relativas condicionadas a los productos de informática, ropa y alimentación son, respectivamente:
Insatisfecho | Indiferente | Satisfecho |
---|---|---|
0.15 | 0.525 | 0.325 |
Insatisfecho | Indiferente | Satisfecho |
---|---|---|
0.2261905 | 0.5595238 | 0.2142857 |
Insatisfecho | Indiferente | Satisfecho |
---|---|---|
0.1944444 | 0.4722222 | 0.3333333 |
((3)) las tablas de satisfacción condicionadas a productos de informática y ropa son muy similares, pero la condicionada a productos de alimentación es muy distinta a las otras. Por lo tanto, la satisfacción depende estadísticamente del tipo de producto adquirido. O lo que es lo mismo, la satisfacción no es estadísticamente independiente del tipo de producto.)
Completa la tabla de frecuencias conjuntas para que exista una independencia estadística perfecta entre las dos variables muestreadas:
Método / Resultado | Insuficiente | Suficiente | Excelente |
---|---|---|---|
A | 140 | 50 | ? |
B | ?? | 40 | 60 |
(Sol: Se puede calcular las frecuencias condicionadas a resultado suficiente, y salen 50/90 = \(0.5555556\) y 40/90 = \(0.4444444\). Para que haya independencia, deben coincidir con las frecuencias condicionadas a resultado insuficiente, y con las condicionadas a resultado excelente. Por eso se pueden “montar” las ecuaciones: \(\frac{50}{90} = \frac{140}{140+??}\) y \(\frac{40}{90} = \frac{60}{60+?}\), de donde se obtienen, respectivamente, \(?? = 112\) y \(? = 75\).)
Comenta sobre la posible independencia entre la variable TIPO y la variable TIEMPO para las dos figuras que se muestran. Si ningún caso es claro de independencia, comenta razonadamente en cuál de los dos casos se está más cerca de la independencia:
(Sol: La independencia conllevaría unos diagramas de caja muy similares. En el caso A el valor central es similar, pero falla “mucho” la dispersión, y en el caso B, la dispersión es similar, pero falla “mucho” el valor central. Por tanto están muy lejos de la independencia estadística, y no se puede comparar cuál estaría más cerca ya que cada uno falla “mucho” en un aspecto muy distinto.)
La siguiente muestra se usa para investigar la relación entre la hora y el número de (miles de) usuarios conectados a un servicio web.
Hora | 7:15 | 7:20 | 7:25 | 7:30 | 7:35 | 7:40 | 7:45 |
---|---|---|---|---|---|---|---|
Usuarios (miles) | 5.35 | 6.58 | 6.43 | 6.89 | 7.25 | 7.99 | 8.32 |
(Sol: (1) Para “ver” la tendencia de los datos, lo bueno, bonito y barato es un diagrama de dispersión (o nube de puntos).
((2)) Suponiendo tendencia lineal, la recta de regresión de Usuarios sobre Hora, es una herramienta para hacer predicciones de Usuarios para valores conocidos de Hora. Hay que tener cuidado en representar bien las horas como números. Tomaremos Hora como los minutos desde las 7:00. En ese caso, la recta de regresión sale \(\text{Usuarios} = 4.2835714 + 0.0896429 \times \text{Hora}\). Ahora las predicciones serían: para \(Hora = 50\), \(Usuarios = 8.7657143\) (en miles), mientras que para \(Hora = 180\), \(Usuarios = 20.4192857\) (en miles).
((3)) La fiabilidad de la predicción para \(Hora = 50\) se puede medir con el coeficiente \(R^2\), que vale \(R^2 = r^2 = 0.9669858^2 = 0.9350615\). Se trata de un valor próximo a \(1.00\), por lo que la predicción tendría una fiabilidad (o calidad) alta. Para analizar la fiabilidad de la predicción para \(Hora = 300\), hay que darse cuenta de que está muy lejos de la muestra, y que se desconoce la tendencia que seguirán los datos cuando el tiempo avance. Por eso habrá que calificar la predicción como poco fiable o de calidad desconocida. )
Completa la tabla siguiente con los valores que puedas, para conseguir 3 escenarios distintos. Ten en cuenta que hay muchas soluciones posibles.
X | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Y | ? | ? | 10 | ? | ? |
Relaciona cada frase con uno de los gráficos a continuación