La Desviación Estándar
La desviación estándar es un índice numérico
de la dispersión de un conjunto de datos (o población).
Mientras mayor es la desviación estándar, mayor es la dispersión
de la población. La desviación estándar es un promedio
de las desviaciones individuales de cada observación con respecto
a la media de una distribución. Así, la desviación
estándar mide el grado de dispersión o variabilidad. En
primer lugar, midiendo la diferencia entre cada valor del conjunto de
datos y la media del conjunto de datos. Luego, sumando todas estas diferencias
individuales para dar el total de todas las diferencias. Por último,
dividiendo el resultado por el número total de observaciones (normalmente
representado por la letra “n”) para llegar a un promedio
de las distancias entre cada observación individual y la media.
Este promedio de las distancias es la desviación estándar
y de esta manera representa dispersión. La desviación estándar es un indicador en extremo valioso con muchas aplicaciones. Por ejemplo, los estadísticos saben que cuando un conjunto de datos se distribuye de manera “normal”, el 68% de las observaciones de la distribución tiene un valor que se encuentra a menos de una desviación estándar de la media. También saben que el 96% de todas las observaciones tiene un valor no es mayor a la media más o menos dos desviaciones estándar (la Figura 18 grafica esta información). La desviación estándar de una población es normalmente
representada por la letra griega (sigma), cuando se calcula sobre la
base de toda la población; por la letra s (minúscula) cuando
se infiere de una muestra; y por la letra S (mayúscula) cuando
simplemente corresponde a la desviación estándar de una
muestra. La fórmula de la desviación estándar es
, donde representa
la suma de las diferencias al cuadrado entre cada observación y la media y N representa el número
total de observaciones. La aparente complicación de la fórmula
surge del hecho de que al restar la media a los valores de cada observación
individual para calcular las diferencias ( ), los valores de las
observaciones que están bajo la media producirán diferencias
negativas, mientras que los valores de las observaciones que son mayores
que la
media proporcionarán valores positivos. Así, las diferencias
positivas y negativas se compensarán entre sí y, en
el caso de una distribución simétrica, producirán
una suma igual a cero para la suma de las desviaciones individuales.
Para
evitar este problema, las desviaciones se elevan al cuadrado, de
modo que todas las desviaciones sean positivas y se puedan sumar.
Después,
se calcula la raíz cuadrada para ‘compensar’,
por decirlo así, la elevación al cuadrado anterior
de los valores. Cuando no se incluye la raíz cuadrada, el
resultado es otro famoso indicador de dispersión conocido
como la “varianza”.
|