2024-02-01

Análisis de datos I (MAT1409)

2.7 Medidas de Dispersión

Tema. 2.7.1 Objetivos de las Medidas de Dispersión.

  • Reflejar la dispersión de los datos alrededor de la media.

  • Cuantificar la dispersión o variabilidad de los datos en relación con su media.

  • Proporcionar información sobre la homogeneidad o heterogeneidad de los datos.

  • Evaluar la consistencia y la estabilidad de los datos.

Tema. 2.7.2 Usos de las Medidas de Dispersión.

  • Comparar la dispersión entre diferentes muestras.

  • Evaluar la precisión de los datos.

  • Hacer inferencias y calcular probabilidad e intervalos de confianza.

  • Identificar valores atípicos o extremos.

Tema. 2.7.3 Características de las Medidas de Dispersión.

  • Se calculan a partir de todas las observaciones.

  • Proporcionan información sobre la amplitud de los datos.

  • Pueden ser afectadas por valores extremos.

Tema. 2.7.4 Clasificación de las Medidas de Dispersión.

Tema. 2.7.5 Varianza

Intuición: - Si \(\overline{x}\), aproxima la tendencia central. - Una forma simple de medir la dispersión es: \[ x_{i} - \overline{x}\] - Para entender la desviación general de toda la muestra: \[\sum_{i=1}^{n}(x_{i} - \overline{x})\]

¿Cuál es el problema?

Tema. 2.7.5 Varianza

  • Si \(x_{i} - \overline{x}<0\).
  • Si \(x_{i} - \overline{x}>0\).

Cuando la muestra \(n\) crece, la diferencia tiende a cero: \[ \lim_{{n \to \infty}} \sum_{i=1}^{n} (x_{i} - \overline{x}) = 0 \]

Tema. 2.7.5 Varianza

  • Queremos medir la distancia de la media.
  • Es mejor sumar diferencias positivas.

\[\sum_{i=1}^{n}(x_{i} - \overline{x})^2\]

Tema. 2.7.5 Varianza

¿En promedio cuanto se desvía la muestra de la media?

  • Varianza:

\[Var(x)=s^2=\sum_{i=1}^{n}\frac{(x_{i} -\overline{x})^2}{n}\]

Mide la distancia cuadrática promedio relativa a la media.

Tema. 2.7.6 Desviación Estándar

  • Sin embargo, las desviaciones son cuadráticas.

¿Por qué no regresar el indicador a la escala de los datos?

  • Desviación Estándar:

\[s=\sqrt{s^2}\]

Mide la distancia promedio relativa a la media.

Tema. 2.7.7 Coeficiente de Variación.

  • \(s\) hace un buen trabajo midiendo la dispersión de la muestra.

  • \(s\) en diferentes unidades:

  • Ventas de una empresa.

  • Número de productos defectuosos.

¿Cómo comparar muestras en escalas diferentes?

Tema. 2.7.7 Coeficiente de Variación.

Generar una métrica de la dispersión que nos ayude a comparar: - Muestras en diferentes unidades. - Muestras en diferentes escalas.

El coeficiente de variación: \[CV = \left| \frac{s}{\overline{x}} \right| \times 100\]

Tema. 2.7.7 Coeficiente de Variación.

  • \(CV=10\%\) significa que la desviación estándar es el 10% de la media.

  • \(CV\leq 100\%\): Hay menos variabilidad relativa en los datos en comparación con la media.

  • \(CV > 100\%\): Hay más variabilidad relativa en los datos en comparación con la media.

Tema. 2.7.8 Limitaciones de la Varianza, Desviación Estándar y Coeficiente de Variación.

  • La \(s\) y el \(s^2\) son influenciadas por valores extremos.
  • Inclusive el \(CV\) que normaliza la dispersión…
  • Al depender de \(s\) puede tener el mismo problema.

Tema. 2.7.9 Rango

Si ordenamos la muestra de forma ascendente:

\[x_{i}=x_{1} \leq x_{2} \leq \ldots \leq x_{n}\]

El intervalo cerrado que contiene todos los valores de la muestra: \[ [x_{1}, x_{n}]\]

El valor menor: \[ \min(x_i)= x_{1}\]

El valor mayor: \[ \max(x_i)= x_{n}\]

Tema. 2.7.9 Rango

Definimos el rango: \[ \Delta = \max(X) - \min(X) \]

La diferencia entre el valor mayor y el menor.

Tema. 2.7.10 Rango Intercuartil (IQR)

¿Cómo calcular una MD que sea menos afectada por valores extremos?

  • Podemos calcular una MD basada en la mediana.
  • La mediana corta la muestra en el centro y no depende de valores individuales.
  • Dividir la muestra \(n\) en cuatro partes llamadas cuartiles.
  • Tomar en cuenta cuantas observaciones se encuentran en cada una de las partes.

Tema. 2.7.10 Rango Intercuartil (IQR) - The Tukey method

  • Comenzamos por dividir la muestra en dos partes.

Definimos la mediana como \(Q_2\) (segundo cuartil): \[ Q_2 = \tilde{x}\]

El primer cuartil, particionamos: \[ Q_1 = \tilde{x_1} \text{ of } [x_1, x_2, \ldots, Q_2)\]

Y finalmente el tercer cuartil: \[ Q_3 = \tilde{x_3} \text{ de } (Q_2, x_2, \ldots, x_n]\]

Tema. 2.7.10 Rango Intercuartil (IQR) - The Tukey method

El Rango Intercuartil (IQR): \[ IQR = Q3 - Q1 \]

La muestra se particiona: \[ [x_1, Q_1), \quad [Q_1, Q_2), \quad [Q_2, Q_3), \quad [Q_3, x_n] \]

Naturalmente, cada intervalo contiene el \(25\%\) de \(n\).

El \(IQR\) contiene el \(50\%\) de \(n\).

Tema. 2.7.10 Rango Intercuartil (IQR)

Si la muestra tamaño \(n\) es par: - \(Q_2\) dividirá la muestra en dos partes de tamaño impar.

Si la muestra tamaño \(n\) es impar: - \(Q_2\) dividirá la muestra en dos partes de tamaño impar.

Tema. 2.7.10 Rango Intercuartil (IQR) Ventajas

  • El rango intercuartil (IQR) es menos sensible a los valores extremos.

  • Es útil para la detección de valores extremos: \[L=Q1-1.5(IQR)\]

\[U=Q3+1.5(IQR)\]

  • Muestra la amplitud donde se concentra el \(50\%\) de los datos.

Tema 2.7 Ejemplo (1/1)

Calcula la \(s^2\), la \(s\), \(\Delta\), \(CV\), y el \(IQR\) de la siguiente muestra de presión arterial:

\[(63, 64, 64, 70, 72, 76, 77, 81, 81) \]

Tema 2.7 Ejemplo (1/2)

-La media:

(63 + 64 + 64 + 70 + 72 + 76 + 77 + 81 + 81)/9
## [1] 72

-La \(s^2\):

((63 - 72)^2 + (64 - 72)^2 + (64 - 72)^2 + (70 - 72)^2 
 + (72 - 72)^2 + (76 - 72)^2 + (77 - 72)^2 
 + (81 - 72)^2 + (81 - 72)^2) / 9
## [1] 46.22222

Tema 2.7 Ejemplo (1/3)

-La \(s\):

sqrt(46.22222)
## [1] 6.798693

-El \(CV\):

sqrt(46.22222)/72*100
## [1] 9.442629

Tema 2.7 Ejemplo (1/4)

  • El \(\Delta\)
81 - 63
## [1] 18

El \(IQR\), dado que \(n\) es impar:

  • \(Q_2\) \[i = \frac{n+1}{2} = \frac{9+1}{2} = 5\]

\[Q_2= \tilde{x} = x_{5} = 70\]

Tema 2.7 Ejemplo (1/5)

  • \(Q_1\) \[ i_1 = \frac{4}{2}=2 \] \[ i_2 = 2 + 1=3 \]

La mediana de \((63, 64, 64, 70)\): \[ Q_1=\tilde{x_1} =\frac{(64+64)}{2}=64\]

Tema 2.7 Ejemplo (1/6)

  • \(Q_3\) \[ i_1 = 2 \] \[ i_2 = 3 \]

La mediana de \((76, 77, 81, 81)\): \[ Q_1=\tilde{x_1} =\frac{(77+81)}{2}=79\]

  • El \(IQR=79-64=15\)

Tema 2.7 Ejemplo (1/7)

¿Hay valores atípicos en esta muestra?

Tema 2.7 Tarea

Calcula la \(s^2\), la \(s\), \(\Delta\), \(CV\), y el \(IQR\) de la siguiente muestra de presión arterial:

\[(62, 63, 64, 64, 70, 72, 76, 77, 81, 81) \]

Bibliografía

Bibliografía