1. Descripción de los procesos y sus actores
Para alcanzar la calidad hay que marcarse unos objetivos y valorar la consecución de los mismos.
2. Tipos de variables estadísticas
La realidad de un proceso o de una opinión sólo se puede conocer a través de los centenares o miles de individuos que protagonizan ese proceso. Por ejemplo:
- Características de un producto o servicio prestado:
- Satisfacción: son los cientos (o miles) de “satisfacciones” de todos los clientes respecto al servicio recibido.
- Tiempo de espera: son los cientos (o miles) de “tiempos de espera” de todos los clientes respecto al servicio recibido.
- Tiempo de ejecución: son los cientos (o miles) de “tiempos de espera” de todos los clientes respecto al servicio recibido.
- etc.
Cada característica que se quiere medir es una variable estadística, y admite una serie de respuestas posibles. La respuesta que da cada individuo es un dato, y el conjunto de todos los datos recabados es la muestra de esa variable estadística.
La naturaleza de los datos hace que se pueda trabajar con ellos de una forma o de otra. Y por eso se clasifican las variables estadísticas en los siguientes tipos:
- Variable nominal (o categórica o cualitativa no ordinal): los datos son “palabras” que no guardan entre sí ningún orden “natural”. ¿Qué se puede hacer con ellos?
- Recuentos de las respuestas de cada tipo, y poner en forma de tabla (tabla de frecuencias absolutas y relativas).
- Es interesante destacar la respuesta más frecuente (la moda).
- La tabla se puede pasar a gráfica (diagrama de barras o sectores).
- Destacar la respuesta más frecuente es poner primero la barra más alta (idea de Pareto).
- Variable ordinal o de escala (no numérica): los datos son “palabras” que guardan entre sí un orden “natural”: de menor a mayor. ¿Qué se puede hacer con ellos?
- Recuentos de las respuestas de cada tipo, y poner en forma de tabla (tabla de frecuencias absolutas y relativas respetando el orden natural).
- La tabla se puede pasar a gráfica (diagrama de barras pero NO sectores).
- Estamos obligados a “mantener el orden natural de los datos”. No podemos “permutar” las barras en la gráfica, porque afectamos a la interpretación del “orden natural” de los datos (aquí Pareto NO).
- Es interesante destacar la respuesta más frecuente (la moda), pero no es tan representativa al estar los datos ordenados.
- Escala tipo Likert. Es la escala ordinal más popular, para medir el nivel de satisfacción. Las hay de distinto número de niveles (4, 5, 7, 10).
- La valoración de 5 estrellas en la web es tipo Likert.
- Hay autores que obtienen medias (o medianas), desviación típica, etc., cambiando los niveles por números (del 1 al 5, etc.) para resumir la satisfacción global.
- Hay otros autores que dicen que eso es una atrocidad, porque “2 no es el doble de satisfacción que 1”, y no hacen ese tipo de resúmenes.
- Variable numérica discreta: los datos son cantidades de “contar”, unidades enteras. ¿Qué se puede hacer con ellos?
- Recuentos de las respuestas de cada tipo, y poner en forma de tabla (tabla de frecuencias absolutas y relativas respetando el orden natural de los números).
- Si hay muchos números distintos en la muestra, es necesario agrupar en intervalos, tanto para la tabla de frecuencias como para la gráfica, que se llamaría histograma.
- Estamos obligados a “mantener el orden natural de los datos”. No podemos “permutar” las barras en la gráfica, porque afectamos a la interpretación del “orden natural” de los datos (aquí Pareto NO).
- La tabla se puede pasar a gráfica (diagrama de barras pero NO sectores).
- Los números tienen “distancia” (entre ellos): están colocados y espaciados, y se puede describir una posición central (media, mediana) y una dispersión (rango, desviación típica, varianza).
- Variable de intervalo (numérica continua): los datos miden magnitudes (como tiempos, distancias, etc.) “continuas”, que admiten valores intermedios (con decimales). ¿Qué se puede hacer con ellos?
- ¿Recuentos de las respuestas de cada tipo?
- Los datos no se repiten lo suficiente, por lo que una tabla de sus recuentos no sirve para nada.
- ¡Pero se pueden clasificar en unos pocos intervalos! Y contar los intervalos. Entonces sí se puede hacer una tabla de frecuencias.
- Estamos obligados a “mantener el orden natural de los datos”. No podemos “permutar” las barras en la gráfica, porque afectamos a la interpretación del “orden natural” de los datos (Pareto NO).
- La tabla de frecuencuas se puede pasar a gráfica (histograma).
- Los números tienen “distancia” (entre ellos): están colocados y espaciados, y se puede describir una posición central (media, mediana) y una dispersión (desviación típica), percentiles, mínimo y máximo, etc.
Ejercicio 1: Clasifica la variable estadística que se indica en cada caso, y di lo que se puede hacer con ella:
- Se pregunta al encuestado por el “tema de mayor preocupación del país”, y se le ofrece elegir uno de un listado (“paro”, “corrupción”, “terrorismo”,…).
- Variable categórica, no ordinal. Se puede hacer tabla de frecuencias, y destacar la moda, y representar por Pareto.
- Se pregunta al encuestado por la “edad en años”, y la población de estudio son personas en edad activa.
- Variable numérica. En principio es discreta, pues nadie responde la edad con decimales, pero como hay tantas edades distintas posibles, a la hora de resumir, hay que hacer intervalos de edad, y se trata como variable numérica continua. Se puede hacer una tabla de frecuencias con intervalos, calcular media, mediana, desviación típica, percentiles, etc. Representar un histograma, y un diagrama de caja (no lo hemos dado, pero es una buena herramienta).
- Se recoge el número de miembros por vivienda familiar.
- Es una variable numérica discreta, y dado que el rango es de 1 hasta algún número no muy grande, se puede evitar agrupar por intervalos. Se puede hacer tabla de frecuencias y diagrama de barras. No por Pareto ni de sectores. Se puede calcular número medio o mediana, desviación típica, percentiles, etc.
- Se recoge la intención de voto para las próximas elecciones generales.
- Se recoge la valoración de los trabajadores de una empresa sobre la facilidad de uso de un procedimiento nuevo. Se ofrece el listado de respuestas: “fácil”, “complicado”, “asequible”.
3. Muestreo
El funcionamiento de una característica concreta de un proceso involucra conocer TODOS los datos relativos a dicha característica.
Por ejemplo:
- La característica “satisfacción del cliente” involucra conocer la satisfacción de TODOS los clientes. Y no siempre se recoge.
- La característica “tiempo de espera” involucra conocer los tiempos de espera de TODOS los clientes. Y no siempre se recoge.
- La característica “importe de cierta transacción” involucra conocer los importes de dicha transacción para TODOS los clientes. Y eso sí se recoge, porque queda registrado automáticamente por los sistemas actuales de tecnología de la información.
Entonces tenemos dos situaciones distintas:
- Cuando se pueden recoger todos los datos, la descripción de los mismos ES la imagen “real” de la situación.
- Cuando sólo se recogen unos pocos datos, la descripción de los mismos puede parecerse a la situación real, pero puede que no. ¿Cómo hacerlo bien? A veces, recoger datos cuesta tiempo y/o dinero, y el presupuesto es limitado.
Muestreo: proceso para recoger una muestra.
Un buen diseño de muestreo puede ayudar a que la “foto” de la muestra tenga “más papeletas” para parecersa a la “foto” de la población completa.
Por ejemplo:
- Un sondeo de opinión sobre gestión del ayuntamiento. Hay presupuesto para entrevistar a 100 personas:
- Método 1: me coloco en cierta calle del municipio y pregunto a las personas que van pasando, hasta llegar a 100.
- Método 2: divido el municipio en zonas “homogéneas” (barrios), por ejemplo en 5 barrios, y pregunto a 20 personas de cada barrio, hasta obtener las 100 respuestas.
Estos ejemplos son dos entre mucha posibilidades. Los procedimientos más “estándar” son:
- Muestreo aleatorio simple: escoger de forma totalmente aleatoria entre la población. Es muy difícil de implementar, pues los elegidos no tienen por qué colaborar dando sus datos.
- Muestreo estratificado: reconocer grupos de la población (estratos) que pueden tener una respuesta distinta a priori sobre el tema en cuestión, y repartir la muestra entre esos estratos de forma…
- … simple (afijación simple): se toma la misma cantidad de datos de cada estrato.
- … proporcional (afijación proporcional): el tamaño de la muestra debe respetar la misma proporcionalidad de los grupos de la población.
- … óptima (afijación óptima): si muestrear en algún estrato tiene un coste distinto, y hay un presupuesto limitado, entonces calcular los tamaños de muestra que respetan el presupuesto y dan mínima varianza.
Ejercicio: Los muestreos que obtiene un canal de televisión cuando pregunta por ideologías políticas, y ofrece al espectador un número de teléfono o un SMS para que contesten, ¿qué defecto tiene de cara a que la muestra “se parezca” a la población?
3. Descripción de la muestra
- Descripción numérica: tabla de frecuencias, media, mediana, cuartiles, mínimo, máximo, etc.
- Descripción gráfica: diagrama de sectores, de barras, de Pareto; histograma, diagrama de caja y bigotes, gráfica de control.
3.1 Ejemplo con variable nominal
3.1 Ejemplo con variable ordinal
3.1 Ejemplo con variable numérica discreta
3.1 Ejemplo con variable numérica continua
4. Las herramientas básicas (Ishikawa)
4.1. La checklist
- Hoja informativa de pasos ordenados para la realización satisfactoria de una tarea larga o compleja.
- Ayuda a reducir errores por omisión (olvidar algún paso)
- Se debe marcar la casilla de cada paso realizado. En caso de fallo, se puede rastrear la fuente.
4.2. El histograma
- Objetivo: informar intuitivamente sobre la “distribución” de los datos de una muestra numérica continua.
- Cómo se fabrica:
- Se averigua el rango de los datos (mínimo y máximo)
- Se encaja la muestra en un intervalo…
- … “lo más estrecho posbile”,
- … que contenga todos los datos,
- … y cuyos extremos sean números “relativamente sencillos”
- Se calcula el número de subintervalos a considerar. Una regla es “la parte entera de \(\sqrt{n}\)”, donde \(n\) es el tamaño de la muestra.
- La anchura de cada subintervalo será el cociente de la anchura del intervalo total, entre el número de intervalos a considerar.
- Se calculan los extremos de los subintervalos. Si salen números “feos”, se retoca ligeramente el intervalo inicial para que salga todo “mejor”.
- Se hace recuento de los datos que caen en cada subintervalo (frecuencias absolutas).
- Se representa en un plano:
- Eje X: de la variable, se traza una recta y se marcan los extremos de los subintervalos.
- Eje Y: de las frecuencias, se marcan desde 0 hasta la frecuencia absoluta más grande.
- Se levantan barras desde el eje X, con la anchura de cada subintervalo, y la altura marcada por su frecuencia absoluta.
- En el eje Y se puede poner una escala de porcentajes (frecuencias divididas por el tamaño de la muestra, y multiplicadas por 100).
- Observaciones importantes:
- El histograma enseña en qué subintervalos hay más y menos datos.
- Ayuda a intuir el valor de la media de los datos: es el centro de gravedad de las barras.
- También ayuda a intuir la dispersión de los datos (desviación típica), pero no su valor.
- Los histogramas más habituales son simétricos y con forma de campana (distribución normal o de Gauss).
- Pero también hay histogramas con asimetría: por ejemplo la distribución de salarios
- Y también histogramas con “varias jorobas”, que pueden revelar que la muestra es una mezcla de grupos diferenciados respecto de la variable estudiada
- Ejemplo detallado: comparación de 3 muestras por histogramas.

- Preguntas/ comentarios sobre el ejemplo:
- Se trata de una variable numérica.
- Las barras representan frecuencias absolutas, y no relativas ni porcentajes (¿cómo se sabe?).
- La amplitud de cada intervalo (en el eje X) se deduce que es 5
- En las 3 muestras se observa el patrón de:
- “Muchos datos alrededor de cierto valor, y a medida que nos alejamos de dicho valor, hay cada vez menos datos”.
- Hay cierta “simetría” en las barras respecto de un eje vertical central.
- Estas características son las típicas de la famosísima “distribución normal o de Gauss”.
- Esta forma de histograma (campaniforme) es muy abundante, sobre todo en variables que miden resultados provocados por muchos factores (como los efectos de la naturaleza).
- Si la muestra sufre un proceso de selección “artificial”, se pueden eliminar individuos que no llegan a un valor mínimo, por ejemplo, y se pierde la simetría del histograma.
- Estimación de valor medio y dispersión: a la vista de las figuras se pueden intuir valores sobre la muestra.
- Valor medio:
- Muestra 1: en torno a 50
- Muestra 2: en torno a 50 (muy parecido a muestra 1)
- Muestra 3: en torno a 60 (mucho mayor que muestras 1 y 2)
- Dispersión:
- Muestra 1: rango de valores entre 25 y 85
- Muestra 2: rango de valores entre 35 y 65 (mucho menor que muestras 1 y 3)
- Muestra 3: rango de valores entre 30 y 90 (muy parecido a muestra 1)
- Aplicación práctica en un ejemplo:
- Si los histogramas representan los tiempos (en minutos) de realización de un mismo servicio, por 3 empleados distintos, durante las últimas 300 prestaciones de ese servicio (cada uno), compara críticamente los empleados.
- Los empleados 1 y 2 son “en promedio” igual de rápidos en realizar su tarea, siendo el empleado 2 el más “regular”, mientras que el empleado 1 presenta grandes diferencias en ocasiones.
- El empleado 3 es “en promedio” bastante más lento que los otros. Además, al igual que el empleado 1 presenta grandes diferencias en sus tiempos, por lo que en su caso (y en el del empleado 1) es más difícil hacer previsiones de lo que puede tardar.
- ¿Qué empleado ha realizado el servicio más rápido y el más lento de todos los registrados? ¿de cuánto tiempo se ha tratado en cada caso (aprox.)?
- El servicio más rápido ha sido realizado por el empleado 1, con un tiempo entre 25 y 30 min., y el más lento ha sido realizado por el empleado 3, con un tiempo entre 85 y 90 min.
- Si el servicio se considera satisfactorio por la dirección de la empresa, si se presta en menos de 50 min., ¿cuál de los 3 empleados da mayor número de servicios satisfactorios?
- Empleado 1: 70+40+30+10+5 = 155
- Empleado 2: 95+40+10 = 145
- Empleado 3: 30+20+5+3 = 58
- Por tanto el empleado 1 da mayor número de servicios satisfactorios.
4.3. El diagrama de Pareto
- Objetivo: informar intuitivamente sobre los factores que más afectan a cierto proceso.
- Sirve para resumir una variable categórica (¡no ordinal!).
- Cada unidad muestreada viene asociada a un factor de una lista de posibles factores.
- Interesa detectar los factores más influyentes, y cuánto influyen sobre el resultado.
- Cómo se fabrica:
- Se resumen los datos en una tabla de frecuencias absolutas (factor vs frecuencia)
- Se ordenan los factores (y sus frecuencias) de mayor a menor frecuencia
- Se representa en un plano un diagrama de barras que respete ese orden:
- Eje X: los factores, ordenados
- Eje Y: escala con las frecuencias absolutas
- Se levantan barras desde el eje X hasta las frecuencias correspondientes a cada factor.
- Se completa la tabla de frecuencias absolutas, con los porcentajes acumulados
- Se completa la gráfica:
- En el eje Y (lado opuesto): se marca el porcentaje del primer factor, alineado con su frecuencia absoluta.
- En el mismo eje se van añadiendo los porcentajes acumulados hasta llegar al 100% respetando la escala.
- Del extremo superior de la primera barra sale una línea poligonal que une cada factor (eje X) con su porcentaje acumulado (eje Y opuesto).
- La poligonal acaba en el último factor y porcentaje 100%.
- Observaciones importantes:
- El diagrama de Pareto destaca los factores más importantes de la muestra (los llamados “pocos vitales”), y los separa de los menos importantes (los llamados “muchos triviales”).
- Ayuda a descubrir que porcentaje de la muestra corresponde a los primeros factores (“pocos vitales” frente a los “muchos triviales”).
- Si hay muchos factores triviales, se pueden agrupar bajo el epígrafe “Otros”, y representar juntos, aunque salga una barra mayor: se entiende que es una mezcla de muchos factores.
- Este diagrama NO SE DEBE HACER CON VARIABLES ORDINALES (se haría un diagrama de barras “normal”, que respete el orden de las categorías).
- Ejemplo detallado: se analizan las causas de retraso de un trabajador a su puesto.

- Preguntas/ comentarios sobre el ejemplo:
- ¿Cuál es la principal causa de retraso?
- ¿Y la segunda causa más influyente?
- ¿Qué porcentaje de los atrasos se eliminaría si superásemos las dos primeras causas?
- ¿Cuántos retrasos se han analizado en la muestra?
- 300 datos (pues el 100% se corresponde con 300, ver escalas).
4.4. El diagrama de espina de pescado (o causas y efecto)
- Diagrama que ayuda a razonar sobre los factores que influyen en un resultado que se quiere analizar:
- El resultado es la cabeza del pescado
- Se marca la espina central
- Hacia ella convergen espinas: cada una corresponde a una temática independiente relacionada con el resultado
- En cada espina convergen espinas mejores relacionadas con cada temática

4.5. El diagrama de dispersión
- Objetivo: informar intuitivamente sobre la “distribución conjunta” de los datos de dos variables (muestras) numéricas continuas emparejadas.
- Cómo se fabrica:
- Se representa en un plano:
- Eje X: de la variable que se puede interpretar como causa. Se traza una recta y se marcan los extremos (mínimo y máximo) de dicha variable.
- Eje Y: de la variable que se puede interpretar como influenciada por la otra. Se traza una recta y se marcan los extremos (mínimo y máximo) de dicha variable.
- Cada dato emparejado representa un individuo medido en dos variables, o una observación simultánea. Por tanto cada dato se representa por un punto en el plano, cuyas coordenadas son los valores de cada variable.
- Observaciones importantes:
- La nube de puntos formada adquiere una forma concreta:
- completamente enmarañada (sin forma definida),
- una banda ascendente o descendente,
- un balón de rugby inclinado,
- etc.
- Una forma “bien definida” da indicios de una “posible” relación de causa-efecto.
- Pero sólo indicios: para que haya relación de causa-efecto hace falta analizar racionalmente.
- Si la nube de puntos se condensa en torno a una recta o curva imaginaria, se podrá predecir valores de una variable conociendo la otra:
- Si los puntos se aproximan mucho a la curva imaginaria, entonces la predicción tendrá bastante precisión.
- Si los puntos distan mucho de la curva imaginaria, entonces la predicción tendrá menos precisión.
- Ejemplo detallado: comparación de 3 diagramas de dispersión.

- Preguntas/ comentarios sobre el ejemplo:
- Se trata siempre de variables numéricas.
- Esta vez interesa ver la relación entre las dos variables para cada muestra, y no comparar entre las muestas, por eso no es preciso hacer coincidir las escalas de los ejes.
- Se trata de 3 “patrones” muy distintos: si vamos recorriendo la nube de puntos de izquierda a derecha observamos que:
- Muestra 1: cuando X está entre 30 y 45, la Y va descendiendo. Cuando X está entre 45 y 55, la Y se mantiene. Cuando la X está entre 55 y 75, el valor de Y va ascendiendo.
- Muestra 2: la Y siempre va ascendiendo. Cuando mayor es la X, mayor es la Y.
- Muestra 3: no se aprecia ninguna tendencia clara.
- Aplicación práctica en un ejemplo:
- Si los diagramas de dispersión representan los tiempos de un tipo de servicio que se realiza en dos fases, y se recoge para 3 trabajadores que lo han realizado las últimas 300 ocasiones.
- En el empleado 1 se observa un patrón en el que, cuando la fase 1 dura en torno a 45-55 minutos, entonces la fase 2 tarda alrededor de 100 min. Cuando el tiempo de la fase 1 es mayor de 55 min, entonces el tiempo de la fase 2 crece respecto al de la fase 1. Sin embargo, cuando es tiempo de la fase 1 está por debajo de 45 min, entonces ocurre lo contrario: cuando más dura la fase 1, menos dura la fase 2.
- En el empleado 2, el patrón es más sencillo, a mayor duración de la fase 1, mayor duración de la fase 2. Y además a un ritmo constante.
- En el empleado 3 no se aprecia ningún patrón ni tendencia. Es todo como muy aleatorio: cuando la fase 1 tarad poco, la fase 2 puede ser cualquier cosa, y cuando la fase 1 tarda mucho, la fase 2 es igual de impredecible.
- El empleado 1 acaba de realizar un servicio cuya primera fase le ha costado 70 min. ¿Qué predicción de tiempo aproximada se puede hacer para la fase 2?
- El empleado 1 acaba de realizar otro servicio cuya primera fase le ha costado 50 min. ¿Qué predicción de tiempo aproximada se puede hacer para la fase 2?
- ¿Cuál de las dos predicciones anteriores parece más fiable? ¿Por qué?
- La de 115 min. Porque la nube de puntos en esa zona del diagrama está más “ceñida” a la curva imaginaria, y en la otra zona es mas “dispersa”.
4.6. Estratificación
Un muestreo muy adecuado para obtener una muestra muy representativa de la población de estudio es el muestreo aleatorio simple:
- Se numeran los individuos de 1 a \(n\).
- Se sortean completamente al azar todos los números.
- Se busca a los individuos de los números premiados para obtener sus datos.
Este método es bueno porque el verdadero azar no tiene favoritismos. Sin embargo, la mala suerte existe y podría “sobrerepresentar” a una minoría (eso sí, no muy a menudo).
Para ayudar a que la mala suerte ocurra “menos”, el investigador puede detectar grupos de población con respuestas homogéneas dentro de los grupos, y muy heterogéneas entre grupos (¿cómo?, por estudios previos, pruebas piloto).
En ese caso, conviene:
- Encontrar esos grupos (llamados “estratos”), y
- Hacer un muestreo aleatorio simple dentro de cada grupo.
¿Cómo elegir el tamaño de muestra de cada grupo? (afijación)
- Todos los grupos igual de numerosos (afijación simple): cuando no hay manera de averiguar el tamaño real de cada uno.
- Una muestra proporcional al tamaño del grupo (afijación proporcional): cuando se dispone del reparto de la población en dichos grupos.
- Tamaños para minimizar la varianza del resultado con presupuesto limitado (afijación óptima): si los costes de muestrear en cada grupo son distintos, y se conoce la varianza de la respuesta en cada grupo.
Ejercicio: Se desea conocer el nivel de satisfacción de los usuarios del tren. Se conoce que los adultos jóvenes son más conformes que el resto de adultos, y que además representan el 30% de usuarios. Si se desea recoger una muestra de 250 usuarios, ¿cómo se intentará escoger?
- Como hay dos grupos diferenciados reconocidos, y uno representa el 30% y otro el 70%, entonces interesa encuestar a 75 jóvenes (30% de 250) y 175 adultos.
Ejercicio: Se sabe que la valoración de un servicio está bastante diferenciado por sexos y por ser fumador, por lo que se va a recoger una muestra de 500 valoraciones intentando representar dichos grupos. Se sabe que entre todos los usuarios (hombres y mujeres) hay un 20% de fumadores, que entre todos los usuarios, hay un 80% de hombres, y que el 50% de las mujeres son fumadoras. ¿Qué tamaños de muestra de cada uno de los 4 subgrupos representa proporcionalmente a la población en la muestra?
4.7. El gráfico de control
En procesos que realizan y se monitorean a lo largo del tiempo, estar bajo control es seguir unas criterios prefijados. En ocasiones esos criterios se incumplen, y hay que determinar si:
- es algo puntual y casual que se va a reconducir por sí solo, o
- es una tendencia que no se recupera y hay que parar la cadena.
Para ello se aprovecha las leyes de la probabilidad en 3 modelos conocidos:
- El modelo binomial, que versa en torno al número de éxitos (fallos) en una racha de intentos consecutivos, cuando se conoce la probabilidad individual de que cada intento sea un éxito (fallo).
- El modelo de Poisson, que versa en torno al número de éxitos (fallos) en un intervalo de tiempo o espacio, cuando se conoce el número medio de éxitos (fallos) por intervalo unidad.
- El modelo normal o Gaussiano, que versa en torno al valor de una característica numérica cuando se conoce la media y varianza de la población.
Con estos modelos se generan unas gráficas de control que establecen, estadísticamente, cuándo se está “bajo control” y cuando se está “fuera de control”, marcando unas bandas superior e inferior.
Por ejemplo:
