Versión CON soluciones

Ejercicios de autoevaluación (no cuentan para la evaluación continua, pero computan como tiempo de trabajo autónomo del alumno)

Problema 1

Una muestra consta de los siguientes datos:

\[6.39, 5.98, 3.25, 7.98, 7.97\]

Sin embargo, al introducirlos en la calculadora, el técnico introduce, por error, los siguientes:

\[6.39, 598, 3.25, 7.98, 7.97\]

Calcula con tu calculadora habitual la media, mediana, desviación típica y varianza de los datos verdaderos, y de los que contienen el error. Finalmente, compara los resultados de las medias y medianas, y reflexiona cuál de ambas ha sido mas “robusta” y cuál mas “sensible”, de cara al error cometido por el técnico.

(Sol:

. \(\overline{x}\) \(\text{Me}\) \(s\) \(s^2\)
Antes \(6.314\) \(6.39\) \(1.7333967\) \(3.004664\)
Después \(124.718\) \(7.97\) \(236.6472896\) \(56001.939656\)

Comentario: la media es muy sensible al gazapo y la mediana no tanto: La varianza y desviación típica tambien son muy sensibles porque se calculan con las “desviaciones de los datos respecto de la media”. Tiempo estimado: 10 min).

Problema 2

Una muestra \(X\) tiene los estadísticos

\(\overline{x}\) \(\widetilde{x}\) \(s\) \(s^2\) \(x_{0.05}\) \(x_{0.95}\)
\(2.6488396\) \(2.1299282\) \(2.1074098\) \(4.4411762\) \(0.4523501\) \(6.4095503\)

Si se crea una nueva variable, \(Y\), como transformación de \(X\), mediante la fórmula \(Y = 7.52 -7.79 X\), ¿cuáles serán los valores de los mismos estadíticos para la muestra de \(Y\)?

(Sol:

\(\overline{y}\) \(\widetilde{y}\) \(s_y\) \(s_y^2\) \(y_{0.05}\) \(y_{0.95}\)
\(-13.1144604\) \(-9.072141\) \(16.4167226\) \(269.5087817\) \(-42.4103968\) \(3.9961931\)

Tiempo estimado: 10 min)

Problema 3

Calcula con tu calculadora habitual la media, desviación típica, cuasidesviación típica, varianza y cuasivarianza de los siguientes datos, expresados en forma de tabla de frecuencias absolutas:

\(x_i\) \(n_i\)
0 21
1 25
2 20
3 5
4 23
5 7

(Sol: \(\overline{x} = 2.049505\), \(s = 1.6312313\), \(s^* = 1.6393672\), \(s^2 = 2.6609156\) y \(s^{*2} = 2.6875248\))

Problema 4

Relaciona cada valor de “media y varianza” con el histograma que más se ajuste a esos estadísticos:

  • A: \(\overline{x} = 7.8795\) y \(s = 0.6687564\)
  • B: \(\overline{x} = 7.8796\) y \(s = 0.9564517\)
  • C: \(\overline{x} = 9.8796\) y \(s = 0.9564517\)
  • D: \(\overline{x} = 9.8795\) y \(s = 0.6687564\)

(Sol: A=G, B=E, C=F y D=H)

Problema 5

Relaciona cada valor de “media y varianza” con el diagrama de caja que más se ajuste a esos estadísticos:

  • A: \(\overline{x} = 7.9759\) y \(s = 0.7272143\)
  • B: \(\overline{x} = 7.9759\) y \(s = 1.0394998\)
  • C: \(\overline{x} = 9.9759\) y \(s = 1.0394998\)
  • D: \(\overline{x} = 9.9759\) y \(s = 0.7272143\)

(Sol: A=G, B=E, C=H y D=F)

Problema 6

¿Cuál de las siguientes dos muestras se debe considerar que tiene los datos más homogéneos?

  • A: una muestra con media \(6.77\) y desviación típica \(3.387\).
  • B: una muestra con media \(47.39\) y varianza \(562.117\).

(Sol: como las medias son “bastante diferentes”, conviene comparar usando el coeficiente de variación. En ese caso, como \(CV_A = 1.998819\) y \(CV_B = 1.9988184\), se puede decir que ambas muestras son igual de homogéneas.)

Problema 7

Se recoge una muestra sobre el nivel de satisfacción de clientes de según el tipo de producto adquirido, y se resume en la siguiente tabla de frecuencias conjuntas (también llamada tabla de doble entrada o tabla de contingencia):

Prod/Satisfac Insatisfecho Indiferente Satisfecho
Informática 12 42 26
Ropa 19 47 18
Alimentación 7 17 12

Escribe:

  1. La tabla de frecuencias relativas marginales de la Satisfacción de los clientes.
  2. Las tres tablas de frecuencias relativas condicionadas de la Satisfacción, una para cada grupo de clientes que han adquirido un tipo de producto.
  3. Mirando las tres tablas del apartado anterior, ¿se puede decir que la distribución de la satisfacción de los clientes “depende” del tipo de producto que han adquirido? ¿O es estadísticamente independiente?

(Sol: (1) las frecuencias relativas marginales son:

Insatisfecho Indiferente Satisfecho
0.19 0.53 0.28

((2)) las frecuencias relativas condicionadas a los productos de informática, ropa y alimentación son, respectivamente:

Insatisfecho Indiferente Satisfecho
0.15 0.525 0.325
Insatisfecho Indiferente Satisfecho
0.2261905 0.5595238 0.2142857
Insatisfecho Indiferente Satisfecho
0.1944444 0.4722222 0.3333333

((3)) las tablas de satisfacción condicionadas a productos de informática y ropa son muy similares, pero la condicionada a productos de alimentación es muy distinta a las otras. Por lo tanto, la satisfacción depende estadísticamente del tipo de producto adquirido. O lo que es lo mismo, la satisfacción no es estadísticamente independiente del tipo de producto.)

Problema 8

Completa la tabla de frecuencias conjuntas para que exista una independencia estadística perfecta entre las dos variables muestreadas:

Método / Resultado Insuficiente Suficiente Excelente
A 140 50 ?
B ?? 40 60

(Sol: Se puede calcular las frecuencias condicionadas a resultado suficiente, y salen 50/90 = \(0.5555556\) y 40/90 = \(0.4444444\). Para que haya independencia, deben coincidir con las frecuencias condicionadas a resultado insuficiente, y con las condicionadas a resultado excelente. Por eso se pueden “montar” las ecuaciones: \(\frac{50}{90} = \frac{140}{140+??}\) y \(\frac{40}{90} = \frac{60}{60+?}\), de donde se obtienen, respectivamente, \(?? = 112\) y \(? = 75\).)

Problema 9

Comenta sobre la posible independencia entre la variable TIPO y la variable TIEMPO para las dos figuras que se muestran. Si ningún caso es claro de independencia, comenta razonadamente en cuál de los dos casos se está más cerca de la independencia:

(Sol: La independencia conllevaría unos diagramas de caja muy similares. En el caso A el valor central es similar, pero falla “mucho” la dispersión, y en el caso B, la dispersión es similar, pero falla “mucho” el valor central. Por tanto están muy lejos de la independencia estadística, y no se puede comparar cuál estaría más cerca ya que cada uno falla “mucho” en un aspecto muy distinto.)

Problema 10

La siguiente muestra se usa para investigar la relación entre la hora y el número de (miles de) usuarios conectados a un servicio web.

Hora 7:15 7:20 7:25 7:30 7:35 7:40 7:45
Usuarios (miles) 5.35 6.58 6.43 6.89 7.25 7.99 8.32
  1. Se observa una tendencia “ascendente”. Además, se cree que los datos siguen una tendencia lineal. ¿Cuál sería la forma más rápida y contundente para confirmar o desmentir esa creencia?
  2. Suponiendo cierta la tendencia lineal, calcula una predicción para el número de usuarios a las 7:50 y otra a las 10:00.
  3. Valora la fiabilidad (o calidad) de las predicciones del apartado anterior.

(Sol: (1) Para “ver” la tendencia de los datos, lo bueno, bonito y barato es un diagrama de dispersión (o nube de puntos).

((2)) Suponiendo tendencia lineal, la recta de regresión de Usuarios sobre Hora, es una herramienta para hacer predicciones de Usuarios para valores conocidos de Hora. Hay que tener cuidado en representar bien las horas como números. Tomaremos Hora como los minutos desde las 7:00. En ese caso, la recta de regresión sale \(\text{Usuarios} = 4.2835714 + 0.0896429 \times \text{Hora}\). Ahora las predicciones serían: para \(Hora = 50\), \(Usuarios = 8.7657143\) (en miles), mientras que para \(Hora = 180\), \(Usuarios = 20.4192857\) (en miles).

((3)) La fiabilidad de la predicción para \(Hora = 50\) se puede medir con el coeficiente \(R^2\), que vale \(R^2 = r^2 = 0.9669858^2 = 0.9350615\). Se trata de un valor próximo a \(1.00\), por lo que la predicción tendría una fiabilidad (o calidad) alta. Para analizar la fiabilidad de la predicción para \(Hora = 300\), hay que darse cuenta de que está muy lejos de la muestra, y que se desconoce la tendencia que seguirán los datos cuando el tiempo avance. Por eso habrá que calificar la predicción como poco fiable o de calidad desconocida. )

Problema 11

Completa la tabla siguiente con los valores que puedas, para conseguir 3 escenarios distintos. Ten en cuenta que hay muchas soluciones posibles.

X 1 2 3 4 5
Y ? ? 10 ? ?
  1. Una covarianza positiva con un coeficiente de correlación cercano o igual a \(1.00\).
  2. Una covarianza negativa con un coeficiente de correlación cercano a igual a \(-1.00\).
  3. Una covarianza y coeficiente de correlación exactamente \(0.00\) (queda excluida la solución \(Y=10\) para todos los datos).

Problema 12

Relaciona cada frase con uno de los gráficos a continuación

  1. La variable cuantitativa \(Y\) aparenta independencia estadística respecto de la variable cuantitativa \(X\)
  2. La variable cuantitativa \(Y\) se aleja mucho de la independencia estadística respecto de la variable cuantitativa \(X\)
  3. La variable cuantitativa \(Y\) aparenta independencia estadística respecto de la variable cualitativa \(X\)
  4. La variable cuantitativa \(Y\) se aleja mucho de la independencia estadística respecto de la variable cualitativa \(X\)
  5. La variable cualitativa \(Y\) aparenta independencia estadística respecto de la variable cualitativa \(X\)
  6. La variable cualitativa \(Y\) se aleja mucho de la independencia estadística respecto de la variable cualitativa \(X\)