La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de puntuaciones. Por ejemplo: “entre dos distribuciones que presentan la misma media aritmética, difieren en la variabilidad de sus puntuaciones”. Así, cuanto menor es la variabilidad, más homogénea es la muestra de sujetos en la variable. En el caso de máxima homogeneidad, todos los valores de la variable serán iguales. De otro modo, cuanto más o menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones difieren entre sí.
Para cuantificar la dispersión de los datos, se pueden distinguir dos tipos de índices: los que miden el grado de semejanza y diferencia de las puntuaciones entre sí (amplitud total o rango y la amplitud semi-intercuartil), y los que la dispersión se mide a alguna medida de tendencia central como la media aritmética (varianza y la desviación típica).
Amplitud total o rango
La amplitud total o rango (AT), de un conjunto de puntuaciones es la distancia que hay en la escala numérica entre los valores que representan la puntuación máxima y la puntuación mínima.
AT = Xmáx - Xmín
Uno de los inconvenientes de la amplitud total es su limitación al utilizar únicamente los valores extremos de la distribución; de esta forma, no recoge la poca o mucha dispersión que pueda existir entre los restantes valores, que son la mayoría de las puntuaciones. Aún así se recomienda incluir éste valor como complementario de otras medidas de dispersión.
Varianza y desviación típica
La variabilidad se puede basar en la distancia observada entre las puntuaciones y un valor central de la distribución como la media aritmética. De modo que, una distribución con poca variabilidad es en la que la mayoría de las puntuaciones están próximas a la media, mientras que con mucha variabilidad, las puntuaciones se alejan del valor medio de la variable.
Un primer índice podría ser el promedio de las desviaciones o diferencias de cada puntuación con su media.
X¯d = ∑(Xi - X¯) / n
El problema de este índice es que el sumatorio del numerador ∑(Xi - X¯), siempre es igual a cero; para ello se han propuesto dos soluciones. La primera consiste en calcular el valor absoluto de cada desviación antes de realizar la suma “desviación suma”:
DM = ∑|Xi - X¯| / n
Una segunda alternativa consiste en basarnos en el cuadrado de las diferencias y así obtenemos la varianza que se define de la siguiente manera:
La varianza de un conjunto de n puntuaciones en una variable X, denotada por Sx2 se define como el promedio de los cuadrados de las desviaciones de las puntuaciones con respecto a la media:
Sx2 = ∑(Xi - X¯)2 / n
Varianza a partir de una distribución de frecuencias absolutas:
Sx2 = ∑ni(Xi - X¯)2 / n
Varianza a partir de una distribución de frecuencias relativas:
Sx2 = ∑pi Xi2 - X¯2 / n
La desviación típica de un conjunto de n puntuaciones, que se representa por Sx es la raíz cuadrada de la varianza.
Tanto la varianza como la desviación típica son índices de dispersión muy útiles en el desarrollo posterior de la estadística inferencial estando en la base de numerosas técnicas estadísticas. Ambos índices presentan las siguientes propiedades:
-
El cálculo de la varianza y la desviación típica, a diferencia de otros índices de dispersión, requieren el uso de todas las puntuaciones observadas en la distribución.
-
La varianza y la desviación típica miden la variabilidad de los datos con respecto a la media aritmética, por lo que únicamente deben aplicarse si estamos utilizando la media como medida de tendencia central.
-
La varianza y la desviación típica siempre son no negativas, es decir, pueden ser iguales o mayores que cero. Son iguales a cero únicamente si todas las puntuaciones son iguales entre sí. En este caso, no habría variabilidad o dispersión en los datos. En el resto de los casos la varianza y la desviación típica son positivas, siendo sus valores mayores a medida que aumenta la variabilidad de las puntuaciones.
Otro índice de variabilidad relacionado con la varianza es la cuasi varianza:
Sn-12 = ∑(Xi - X¯)2 / n-1
Coeficiente de variación
Es frecuente que uno de los objetivos del análisis descriptivo de los datos sea la comparación del grado de variabilidad o dispersión entre dos conjuntos de puntuaciones en una misma o distintas variables. Debido a que, por lo general, las variables objeto de estudio se miden en unidades distintas no tiene sentido compararlas en base a los valores de sus varianzas o desviaciones típicas. Para paliar este inconveniente es necesario definir un índice de variabilidad relativa que no dependa de las unidades de medida. Un coeficiente que cumple con estos requisitos es el coeficiente de variación, que se expresa en porcentajes:
CV = (Sx / X) × 100
El coeficiente de variación está definido para variables con X > 0 y es recomendable que su resultado se acompañe de la media y desviación típica de la distribución a partir de las cuales ha sido calculado.
Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también es necesario el coeficiente de variación para comparar la dispersión de ambas distribuciones. Únicamente es posible utilizar la desviación típica cuando la media de ambos grupos es la misma, y entonces, llegaríamos a las mismas conclusiones con ambos índices.
Amplitud semi-intercuartil
La varianza y la desviación típica, junto con la media aritmética, son los estadísticos recomendados para estudiar la variabilidad y la tendencia central de una distribución de frecuencias.
Sin embargo, en ocasiones, y debido a la asimetría de la distribución, no es aconsejable el uso de estos índices y debemos buscar una alternativa. En estos casos, un índice resistente de dispersión adecuado, que se utilizaría junto con la mediana como medida de tendencia central, sería la amplitud semi-intercuartil que es la distancia media entre el tercer y el primer cuartil:
Q = (P75 - P25) / 2
Este índice informa del 50% de las puntuaciones comprendidas entre el percentil 25 y el 75 de la distribución.