Cuáles son las medidas de dispersión: guía completa para entender la variabilidad de los datos

Cuáles son las medidas de dispersión: guía completa para entender la variabilidad de los datos

Pre

Cuando analizamos datos, no basta con saber cuál es el valor típico o central. La información sobre cuánta variación hay alrededor de ese centro es crucial para entender la confiabilidad, la representatividad y las posibles diferencias entre conjuntos de datos. En estadística, las medidas de dispersión o medidas de variabilidad nos permiten responder a preguntas como: ¿qué tan dispersos están los valores respecto a la media o la mediana? ¿Qué tan radicales son las diferencias entre los extremos? En este artículo exploraremos cuáles son las medidas de dispersión, cómo se calculan, cuándo conviene usarlas y cómo interpretarlas en distintos contextos. También veremos ejemplos prácticos y herramientas para calcularlas en hojas de cálculo y con calculadora.

Cuáles son las medidas de dispersión: un repaso esencial

Las medidas de dispersión, también llamadas medidas de variabilidad, describen la extensión o la dispersión de los datos alrededor de un valor central. Aunque es común referirse a la media o la mediana para resumir un conjunto de datos, esas medidas no dicen nada por sí solas sobre cuánto se extienden los datos. Por eso, entender cuáles son las medidas de dispersión y cuándo usar cada una es fundamental para realizar interpretaciones precisas.

Entre las principales medidas de dispersión se encuentran el rango, la varianza, la desviación típica o desviación estándar, la desviación absoluta media (MAD), el coeficiente de variación y el rango intercuartílico (IQR). Cada una tiene características propias, sensibilidad ante outliers y utilidades distintas según el tipo de distribución de los datos y el objetivo del análisis.

Rango y dispersión total: el extremo como indicador

Rango

El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos. Es la medida más simple de dispersión y da una idea rápida de la extensión total de los valores. Sin embargo, el rango puede verse fuertemente influenciado por valores atípicos (outliers) y no ofrece información sobre la distribución interna de los datos.

Fórmula: rango = valor máximo – valor mínimo.

Ejemplo práctico: si tenemos los datos 4, 7, 8, 15, 22, el rango es 22 – 4 = 18. Este número nos dice qué tan dispersos pueden ser los extremos, pero no cómo se distribuyen los demás valores entre esos extremos.

Ventajas y limitaciones del rango

  • Ventajas: fácil de entender y calcular; útil como primer indicio de dispersión.
  • Limitaciones: sensible a outliers; no describe la dispersión interna de los datos.

Desviación típica y varianza: la dispersión respecto al centro

Desviación estándar (desviación típica)

La desviación estándar mide, en promedio, cuánto se alejan los datos de su valor central. Es una de las medidas de dispersión más utilizadas porque se interpreta fácilmente en relación con la media, especialmente cuando la distribución es aproximadamente normal.

Fórmulas (dependen de si trabajas con población o muestra):

  • Desviación estándar poblacional: σ = sqrt( (1/n) * Σ(xi − μ)^2 )
  • Desviación estándar muestral: s = sqrt( (1/(n−1)) * Σ(xi − x̄)^2 )

Ejemplo práctico: con los datos 12, 15, 15, 20, 22, 22, 22, 30, 40 (n = 9), la media es 22. La desviación estándar muestral resulta aproximadamente 8.58. Este valor indica, en promedio, cuánto se separan los valores de la media.

Varianza

La varianza es el cuadrado de la desviación estándar y también mide la dispersión alrededor de la media. Suele utilizarse en cálculos analíticos y en teoría de probabilidades. Como la desviación estándar está en las mismas unidades que los datos, la varianza se expresa en las unidades al cuadrado.

Fórmula (muestra): Varianza muestral = (1/(n−1)) * Σ(xi − x̄)^2

Ejemplo práctico: con el mismo conjunto de datos, la varianza muestral es 73.75. Es decir, la desviación típica es la raíz cuadrada de esa varianza.

Cuándo usar variancia y desviación estándar

La desviación estándar se prefiere cuando queremos interpretar la dispersión en las mismas unidades de los datos y cuando la distribución es aproximadamente simétrica. La varianza, al ser la función cuadrática, es útil en modelos y en análisis teórico donde las operaciones algebraicas se simplifican al trabajar con cuadrados.

Desviación absoluta media (MAD): robustez ante outliers

Desviación absoluta media

La desviación absoluta media (MAD) mide, en promedio, cuánto se apartan los datos de un centro de referencia, normalmente la mediana. A diferencia de la desviación estándar, MAD utiliza distancias absolutas en lugar de distancias al cuadrado, lo que la hace menos sensible a valores extremos.

Fórmula (con la mediana m): MAD = (1/n) * Σ|xi − m|

Ejemplo práctico: si la mediana es 22 y los datos son 12, 15, 15, 20, 22, 22, 22, 30, 40, las desviaciones absolutas serían 10, 7, 7, 2, 0, 0, 0, 8, 18; MAD ≈ 52/9 ≈ 5.78. Este valor da una idea de la dispersión sin verse fuertemente afectado por el valor extremo 40.

Ventajas de MAD

  • Robusta frente a outliers que pueden distorsionar la media y la desviación estándar.
  • Proporciona una medida intuitiva de variabilidad cuando se utiliza con la mediana como centro.

Rango intercuartílico (IQR) y medidas basadas en percentiles

Rango intercuartílico (IQR)

El IQR es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Describe la dispersión de la mitad central de los datos y es especialmente útil cuando la distribución es asimétrica o contiene outliers, ya que omite los extremos.

Fórmula: IQR = Q3 − Q1

Ejemplo práctico: con la secuencia ordenada 12, 15, 15, 20, 22, 22, 22, 30, 40; calculando Q1 ≈ 15 y Q3 ≈ 26, el IQR ≈ 11. Este valor enfatiza la variabilidad de la región central de los datos.

Percentiles y cuartiles

Los cuartiles dividen los datos en cuatro partes iguales. Q1 marca el borde inferior del 50% inferior de datos, Q3 marca el borde superior del 50% superior. Los percentiles hacen lo mismo para cualquier fracción deseada (p%). Estas medidas son especialmente útiles para comparar distribuciones no simétricas y para identificar valores atípicos en relación con la distribución general.

Medidas de dispersión en la práctica: interpretación y decisiones

Cómo interpretar cada medida

Rango: indica la extensión total de la distribución, útil como indicio inicial de dispersión pero no describe la distribución interior.

Desviación estándar y varianza: describen la dispersión respecto al centro. Útiles cuando la distribución es cercana a la normal y se comparan conjuntos con medias semejantes.

MAD y IQR: medidas robustas ante outliers. Recomendadas cuando hay valores extremos o cuando la distribución es sesgada.

Coeficiente de variación (CV): permite comparar la dispersión entre conjuntos con medias diferentes al normalizar la desviación por la media. Útil en comparación entre poblaciones o muestras con distintas escalas.

Cómo elegir la medida adecuada

  • Si la distribución es aproximadamente normal y quieres comparar dispersión entre grupos con medias similares, usa desviación estándar o varianza.
  • Si hay outliers o distribución sesgada, prioriza MAD o IQR para obtener una imagen más robusta de la variabilidad central.
  • Para comparaciones entre datasets con unidades distintas, emplea el coeficiente de variación.
  • Para una visión rápida de la extensión total sin perder información sobre la distribución, considera el rango, pero acompáñalo de otras medidas.

Ejemplo práctico completo: cálculo paso a paso de medidas de dispersión

Considere el conjunto de datos siguiente: 12, 15, 15, 20, 22, 22, 22, 30, 40. A continuación se muestran los cálculos clave para ilustrar cuáles son las medidas de dispersión y cómo se interpretan.

1) Ordenar y calcular la media: la media es 22 (suma 198 entre 9 valores).

2) Rango: 40 − 12 = 28. Extensión total de los datos.

3) Desviación estándar muestral: s ≈ 8.58. Indica, en promedio, cuánto se apartan los valores de la media.

4) Varianza muestral: ≈ 73.75. Cuadrado de la desviación típica en muestra.

5) MAD (con la mediana 22): ≈ 6.0 si se usa la mediana para el centro, dependiendo de la convención, se obtiene alrededor de 5.78.

6) IQR: Q1 ≈ 15, Q3 ≈ 26; IQR ≈ 11. Esto destaca la dispersión de la región central y su robustez ante valores extremos.

Interpretación: en este conjunto, la dispersión medida por la desviación estándar y el IQR indica que, aunque el extremo superior llega a 40, la mayor parte de los datos se concentra cerca de 22. La presencia de 40 influye el rango y, en menor medida, el IQR. Si la prioridad fuera detectar la variabilidad central, el IQR y la MAD proporcionarían una imagen más estable ante el extremo 40.

Dispersión, distribución de datos y outliers: lecciones clave

Relación entre dispersión y distribución

La forma de la distribución afecta la interpretación de las medidas de dispersión. En distribuciones simétricas y cercanas a la normal, la desviación estándar ofrece una interpretación intuitiva y comparable. En distribuciones asimétricas o con colas largas, el IQR, MAD y percentiles pueden dar una visión más fiel de la variabilidad de la mayor parte de los datos.

Outliers y su impacto

Los outliers pueden distorsionar significativamente la desviación estándar y el rango, mientras que el IQR y MAD resisten mejor este efecto. Por lo tanto, cuando existan valores extremos, conviene complementar con estas medidas robustas para no malinterpretar la dispersión real.

Aplicaciones prácticas en distintos campos

Investigación y educación

En evaluaciones académicas y estudios experimentales, las medidas de dispersión permiten comparar la consistencia de diferentes muestras y entender si las diferencias entre grupos son significativas desde el punto de vista de la variabilidad.

Negocios y finanzas

En finanzas, la desviación estándar de los rendimientos se utiliza como una medida de riesgo. El coeficiente de variación facilita comparar la volatilidad de activos con diferentes medias de rendimiento.

Salud y epidemiología

La variabilidad en indicadores clínicos (p. ej., tiempos de recuperación, respuestas a tratamientos) se evalúa con IQR y MAD para decidir sobre la eficacia de intervenciones sin que un par de valores extremos distorsione la lectura general.

Herramientas para calcular medidas de dispersión

En Excel y Google Sheets

Para calcular algunas medidas, puedes emplear funciones integradas:

  • Rango: MAX(rango) − MIN(rango)
  • Media: PROMEDIO(rango)
  • Desviación típica muestral: DESVEST (o STDEV.S en Excel reciente)
  • Varianza muestral: VAR.S
  • Desviación típica poblacional: DESVEST.P o STDEV.P
  • Rango intercuartílico: CUARTIL.EXC o CUARTIL.INC para Q1 y Q3 y luego IQR = Q3 − Q1
  • MAD: no hay una función directa universal, pero se puede calcular con una fórmula que tome promedio de |xi − median(x)|

Con calculadora y métodos manuales

Si prefieres hacerlo a mano, sigue los pasos descritos en cada sección: ordenar datos, calcular la media, restas y cuadrados, sumas, etc. La clave es mantener claro qué medida estás calculando y qué centro (media o mediana) estás usando cuando corresponde.

Conclusiones: ¿cuáles son las medidas de dispersión y cuándo usarlas?

En resumen, cuáles son las medidas de dispersión abarcan un conjunto de herramientas que permiten cuantificar la variabilidad de los datos. La elección de la medida adecuada depende del contexto:

  • Desviación estándar y varianza: útiles para distribución aproximadamente normal y para comparaciones entre grupos con medias similares.
  • MAD e IQR: más robustas ante outliers y útiles para distribuciones sesgadas o con valores extremos.
  • Rango: indicador rápido de la extensión total, pero debe usarse con precaución por su sensibilidad a outliers.
  • Coeficiente de variación: correcto para comparar dispersión entre conjuntos con diferentes unidades o escalas.

Entender estas medidas y saber cuándo aplicarlas permite interpretar mejor los datos, comunicar hallazgos con claridad y tomar decisiones fundamentadas en la variabilidad real de los fenómenos analizados. Al comparar distintos conjuntos de datos, es recomendable presentar varias medidas de dispersión para ofrecer una visión completa de la variabilidad y la robustez de las conclusiones.