La Desviación Estándar

La desviación estándar es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población. La desviación estándar es un promedio de las desviaciones individuales de cada observación con respecto a la media de una distribución. Así, la desviación estándar mide el grado de dispersión o variabilidad. En primer lugar, midiendo la diferencia entre cada valor del conjunto de datos y la media del conjunto de datos. Luego, sumando todas estas diferencias individuales para dar el total de todas las diferencias. Por último, dividiendo el resultado por el número total de observaciones (normalmente representado por la letra “n”) para llegar a un promedio de las distancias entre cada observación individual y la media. Este promedio de las distancias es la desviación estándar y de esta manera representa dispersión.

Matemáticamente, la desviación estándar podría, a primera vista, parecer algo complicada. Sin embargo, es en realidad un concepto extremadamente simple. En realidad no importa si usted no sabe calcular con exactitud la desviación estándar, siempre y cuando usted comprenda claramente el concepto.

La desviación estándar es un indicador en extremo valioso con muchas aplicaciones. Por ejemplo, los estadísticos saben que cuando un conjunto de datos se distribuye de manera “normal”, el 68% de las observaciones de la distribución tiene un valor que se encuentra a menos de una desviación estándar de la media. También saben que el 96% de todas las observaciones tiene un valor no es mayor a la media más o menos dos desviaciones estándar (la Figura 18 grafica esta información).


La desviación estándar de una población es normalmente representada por la letra griega (sigma), cuando se calcula sobre la base de toda la población; por la letra s (minúscula) cuando se infiere de una muestra; y por la letra S (mayúscula) cuando simplemente corresponde a la desviación estándar de una muestra. La fórmula de la desviación estándar es , donde representa la suma de las diferencias al cuadrado entre cada observación y la media y N representa el número total de observaciones. La aparente complicación de la fórmula surge del hecho de que al restar la media a los valores de cada observación individual para calcular las diferencias ( ), los valores de las observaciones que están bajo la media producirán diferencias negativas, mientras que los valores de las observaciones que son mayores que la media proporcionarán valores positivos. Así, las diferencias positivas y negativas se compensarán entre sí y, en el caso de una distribución simétrica, producirán una suma igual a cero para la suma de las desviaciones individuales. Para evitar este problema, las desviaciones se elevan al cuadrado, de modo que todas las desviaciones sean positivas y se puedan sumar. Después, se calcula la raíz cuadrada para ‘compensar’, por decirlo así, la elevación al cuadrado anterior de los valores. Cuando no se incluye la raíz cuadrada, el resultado es otro famoso indicador de dispersión conocido como la “varianza”.