2024-02-01
Reflejar la dispersión de los datos alrededor de la media.
Cuantificar la dispersión o variabilidad de los datos en relación con su media.
Proporcionar información sobre la homogeneidad o heterogeneidad de los datos.
Evaluar la consistencia y la estabilidad de los datos.
Comparar la dispersión entre diferentes muestras.
Evaluar la precisión de los datos.
Hacer inferencias y calcular probabilidad e intervalos de confianza.
Identificar valores atípicos o extremos.
Se calculan a partir de todas las observaciones.
Proporcionan información sobre la amplitud de los datos.
Pueden ser afectadas por valores extremos.
Intuición: - Si \(\overline{x}\), aproxima la tendencia central. - Una forma simple de medir la dispersión es: \[ x_{i} - \overline{x}\] - Para entender la desviación general de toda la muestra: \[\sum_{i=1}^{n}(x_{i} - \overline{x})\]
¿Cuál es el problema?
Cuando la muestra \(n\) crece, la diferencia tiende a cero: \[ \lim_{{n \to \infty}} \sum_{i=1}^{n} (x_{i} - \overline{x}) = 0 \]
\[\sum_{i=1}^{n}(x_{i} - \overline{x})^2\]
¿En promedio cuanto se desvía la muestra de la media?
\[Var(x)=s^2=\sum_{i=1}^{n}\frac{(x_{i} -\overline{x})^2}{n}\]
Mide la distancia cuadrática promedio relativa a la media.
¿Por qué no regresar el indicador a la escala de los datos?
\[s=\sqrt{s^2}\]
Mide la distancia promedio relativa a la media.
\(s\) hace un buen trabajo midiendo la dispersión de la muestra.
\(s\) en diferentes unidades:
Ventas de una empresa.
Número de productos defectuosos.
¿Cómo comparar muestras en escalas diferentes?
Generar una métrica de la dispersión que nos ayude a comparar: - Muestras en diferentes unidades. - Muestras en diferentes escalas.
El coeficiente de variación: \[CV = \left| \frac{s}{\overline{x}} \right| \times 100\]
\(CV=10\%\) significa que la desviación estándar es el 10% de la media.
\(CV\leq 100\%\): Hay menos variabilidad relativa en los datos en comparación con la media.
\(CV > 100\%\): Hay más variabilidad relativa en los datos en comparación con la media.
Si ordenamos la muestra de forma ascendente:
\[x_{i}=x_{1} \leq x_{2} \leq \ldots \leq x_{n}\]
El intervalo cerrado que contiene todos los valores de la muestra: \[ [x_{1}, x_{n}]\]
El valor menor: \[ \min(x_i)= x_{1}\]
El valor mayor: \[ \max(x_i)= x_{n}\]
Definimos el rango: \[ \Delta = \max(X) - \min(X) \]
La diferencia entre el valor mayor y el menor.
¿Cómo calcular una MD que sea menos afectada por valores extremos?
Definimos la mediana como \(Q_2\) (segundo cuartil): \[ Q_2 = \tilde{x}\]
El primer cuartil, particionamos: \[ Q_1 = \tilde{x_1} \text{ of } [x_1, x_2, \ldots, Q_2)\]
Y finalmente el tercer cuartil: \[ Q_3 = \tilde{x_3} \text{ de } (Q_2, x_2, \ldots, x_n]\]
El Rango Intercuartil (IQR): \[ IQR = Q3 - Q1 \]
La muestra se particiona: \[ [x_1, Q_1), \quad [Q_1, Q_2), \quad [Q_2, Q_3), \quad [Q_3, x_n] \]
Naturalmente, cada intervalo contiene el \(25\%\) de \(n\).
El \(IQR\) contiene el \(50\%\) de \(n\).
Si la muestra tamaño \(n\) es par: - \(Q_2\) dividirá la muestra en dos partes de tamaño impar.
Si la muestra tamaño \(n\) es impar: - \(Q_2\) dividirá la muestra en dos partes de tamaño impar.
El rango intercuartil (IQR) es menos sensible a los valores extremos.
Es útil para la detección de valores extremos: \[L=Q1-1.5(IQR)\]
\[U=Q3+1.5(IQR)\]
Calcula la \(s^2\), la \(s\), \(\Delta\), \(CV\), y el \(IQR\) de la siguiente muestra de presión arterial:
\[(63, 64, 64, 70, 72, 76, 77, 81, 81) \]
-La media:
(63 + 64 + 64 + 70 + 72 + 76 + 77 + 81 + 81)/9
## [1] 72
-La \(s^2\):
((63 - 72)^2 + (64 - 72)^2 + (64 - 72)^2 + (70 - 72)^2 + (72 - 72)^2 + (76 - 72)^2 + (77 - 72)^2 + (81 - 72)^2 + (81 - 72)^2) / 9
## [1] 46.22222
-La \(s\):
sqrt(46.22222)
## [1] 6.798693
-El \(CV\):
sqrt(46.22222)/72*100
## [1] 9.442629
81 - 63
## [1] 18
El \(IQR\), dado que \(n\) es impar:
\[Q_2= \tilde{x} = x_{5} = 70\]
La mediana de \((63, 64, 64, 70)\): \[ Q_1=\tilde{x_1} =\frac{(64+64)}{2}=64\]
La mediana de \((76, 77, 81, 81)\): \[ Q_1=\tilde{x_1} =\frac{(77+81)}{2}=79\]
¿Hay valores atípicos en esta muestra?
Calcula la \(s^2\), la \(s\), \(\Delta\), \(CV\), y el \(IQR\) de la siguiente muestra de presión arterial:
\[(62, 63, 64, 64, 70, 72, 76, 77, 81, 81) \]
Dodge, Y. (2008). The concise encyclopedia of statistics. Springer Science & Business Media.
Business Mathematics.(2023).SBPD https://www.google.com.mx/books/edition/Business_Mathematics/oRLFEAAAQBAJ
Smith, G. (2015). Essential statistics, regression, and econometrics.
Boston University. (s/f). Summarizing Data. Recuperado de https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_summarizingdata/bs704_summarizingdata7.html