Este importante parámetro nos permite efectuar comparaciones entre distintas poblaciones. Por ejemplo, si tuviéramos una población formada por mediciones del peso de mujeres de 30 años, otra de peso de varones de 40 años y una tercera de peso de niños de 8 años, es indudable que los promedios van a ser diferentes. El promedio, entonces, nos está diciendo que las tres poblaciones son diferentes y también en que medida difieren.
Ahora, si tuviéramos una población de varones con peso promedio 70 Kg. y otra población de varones con el mismo promedio, ¿se puede afirmar que ambas poblaciones son equivalentes? Para responder esta pregunta necesitamos tener medidas de la dispersión de la población de datos.
Medidas de Dispersión
La otra característica muy importante de una población es el grado de dispersión de las observaciones. No es lo mismo si en nuestra población encontramos que todos los valores están entre 75 y 90 Kg. que si están entre 60 y 105 Kg., aunque el promedio sea el mismo. Es necesario agregar alguna idea de la dispersión de los valores.
Una manera es a través del Rango de las observaciones, es decir, el valor Máximo y el valor Mínimo de los datos de la población. Entonces, una descripción mas realista acerca de los seres humanos sería decir que pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos valores son supuestos).
Una manera más precisa de dar idea de la dispersión de valores de una población es a través de la Varianza o su raíz cuadrada, que es la Desviación Standard.
Vamos a calcular la varianza y la desviación standard de un número pequeño de datos (Una muestra) para ilustrar el cálculo. Supongamos que se midió la altura de 10 personas adultas y de sexo femenino, y se obtuvieron los valores siguientes (en cm) 165 ; 163 ; 171 ; 156 ; 162 ; 159 ; 162 ; 168 : 159 ; 167 |
- = 163, 2 cm
Los residuos también nos dan una idea de la dispersión de las observaciones individuales alrededor del promedio. Si el valor absoluto (El valor numérico sin el signo) de los residuos es grande, es porque los valores están muy dispersos. Si el valor absoluto de los residuos es pequeño, significa que las observaciones individuales están muy cerca del promedio, y por lo tanto, hay poca dispersión.
Pero nosotros necesitamos un sólo número que nos provea información acerca de la dispersión de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se cancelarían entre sí, con lo cual perdemos la información acerca de la dispersión. Entonces, los elevamos al cuadrado:
Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde se condensa toda la información de la dispersión de la población:
Este número, la suma de cuadrados, es dependiente del número de datos N, y por lo tanto no nos sirve para comparar poblaciones con distinto número de observaciones.
Pero si dividimos la suma de cuadrados por N, tenemos un número que es independiente del número de observaciones, que se denomina Varianza:
En nuestro caso:
Las fórmulas anteriores son las que se aplican al cálculo de la varianza y desviación standard de una población de datos. Mas adelante veremos que las fórmulas a aplicar en el caso de una muestra son ligeramente diferentes. La varianza es un número que nos permite comparar poblaciones. Cuando la dispersión de las observaciones es grande (Datos que se alejan mucho por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el promedio) será grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la varianza.
También se utiliza la raíz cuadrada de la varianza:
Por lo tanto:
La desviación standard o desviación típica tiene las mismas unidades que la variable con la que estamos trabajando, en nuestro caso el centímetro. Tanto la varianza como la desviación standard nos permiten comparar el grado de dispersión de distintas poblaciones.
No hay comentarios:
Publicar un comentario