2024-02-13
¿Cómo podemos tomar decisiones basadas en datos?
La prueba de hipótesis nos ofrece un marco estadístico para hacerlo.
Comienza con una afirmación sobre una población:
Los ingresos mensuales de los trabajadores de negocios es superior a los de ingeniería.
El tiempo de estudio a la semana de los estudiantes de negocios es superior a 10 hras.
El tiempo de entrega del proveedor X es superior a la del proveedor Y.
etc.
Típicamente, no hay recursos para un censo, y trabajos con muestras representativas e idealmente aleatorias.
Definimos dos afirmaciones mutuamente excluyentes.
Aplicamos el principio de contradicción.
Popper argumentaba que la ciencia no busca probar afirmaciones, sino más bien refutarlas.
El proceso de validación de nuestro argumento busca ser objetivo y eliminar sesgos de confirmación.
Debemos dar margen a estar equivocados.
Formulamos dos hipótesis (afirmaciones) mutuamente excluyentes.
Buscar evidencia para demostrar que una es falsa en favor de una alternativa.
Aplicar diferentes métodos estadísticos en función de la variable (continua, binaria, categórica) y del tipo de muestra.
Determinar si hay suficiente evidencia para validar una afirmación acerca de la población por medio de la muestra (inferencia).
Apoyar o refutar teorías, conocimientos empíricos o creencias.
Tomar decisiones efectivas.
Buscar consenso.
Evaluar el desempeño.
Evaluar el impacto de intervenciones o tratamientos*.
Las conclusiones no son definitivas, están sujetas a aleatoriedad y a error de muestreo.
No determinan causalidad de manera directa, más bien una asociación.
No ofrecen explicaciones sobre los mecanismos o determinantes subyacentes.
Las conclusiones de las pruebas de hipótesis pueden estar influenciadas por supuestos no cumplidos.
La muestra representativa idealmente aleatoria de una población.
Las hipótesis (o argumentos): \[ H_0: \text{Nula}\\ H_A: \text{Alternativa}\\ \]
Regla de deción basada en probabilidad.
Se concluye haciendo énfasis al respecto de \(H_0\).
Se utiliza este vocabulario para separar la verdad de la inferencia.
El nivel de confianza \(1- \alpha\), representa un intervalo intervalo de confianza en el que es probable se encuentre el parámetro bajo \(H_0\).
Por el lado \(\alpha\), representa una región de rechazo.
Necesitamos una estadística(métrica), que nos ayude a determinar la presencia de \(H_A\), en torno a la distribución de la \(H_0\).
Definimos \(p-value\): la probabilidad de observar un resultado al menos tan extremo como el que se observó \(H_A\), asumiendo que la hipótesis nula es verdadera.
Debido a que trabajamos con datos muestrales hay que considerar:
Decisión Correcta | \(H_0\) Verdadero | \(H_0\) Falso |
---|---|---|
Fallar en rechazar \(H_0\) | Correcta | Error de tipo II |
Rechazar \(H_0\) | Error de tipo I | Correcta |
Sin embargo, al reducir \(\alpha\) somos más estrictos.
Es decir, es más difícil rechazar \(H_0\).
Si \(\alpha\) reduce se incrementa la probabilidad de cometer un Error de tipo II.
Es decir, fallar en rechazar \(H_0\) cuando en realidad es falsa.
Si conocemos la media poblacional: \[ Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]
\[ t = \frac{ \overline{x} - \mu}{s/\sqrt{n}} \]
Cuando estamos interesados en eventos que tienen solo dos posibles resultados (exito o fracaso).
La varianza de una distribución binomial:
\[\sigma^2 = np(1-p)\]
y la desviación estándar es la raíz cuadrada de la varianza:
\[\sigma = \sqrt{np(1-p)}\]
Para tener una mejor aproximación de la desviación en la muestra: \[s = \sqrt{p_0(1-p_0)/n}\]
La fórmula para la estadística de prueba en una prueba de proporciones es:
\[ z = \frac{p - p_0}{\sqrt{p_0(1-p_0)/n}} \]
donde:
\[ H_0: \mu = \mu_{0} \\ H_A: \mu \neq \mu_{0} \\ \]
\[ H_0: \mu \geq \mu_{0} \\ H_A: \mu < \mu_{0}\\ \]
\[ H_0: \mu \leq \mu_{0} \\ H_A: \mu > \mu_{0}\\ \]
Una cola: \[\left| Z \right|> Z_{\alpha} \]
Esto aplica para la t-student, replazar \(Z\) por \(t\).
Usar un nivel de significancia de 5%.
De acuerdo a IQcouncil.com la media de IQ típica de la población es de 100 puntos y su desviación estándar es de 15 puntos. Se seleccionan 30 estudiantes de la escuela y resulta que su promedio es de 105 puntos. ¿Son los estudiantes de la escuela significativamente diferentes al promedio?
\[ H_0: \mu = 100 \\ H_A: \mu \neq \mu_{0} \\ \]
La distribución del \(IQ\) es normal.
=DISTR.NORM.INV(.9750,0,1)=1.96
\[ Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]
Con los datos:
\[ Z = \frac{105 - 100}{15/\sqrt{30}} \]
(105 - 100)/(15/sqrt(30))
## [1] 1.825742
En tabla: El \(p-value\) es la probabilidad de \(P(Z>1.83)=0.0336\).
En Excel, debido a que es la p. acumulada de la cola izquierda:
¿Son los estudiantes de la escuela significativamente diferentes al promedio?
No hay evidencia estadística de que los alumnos tengan un IQ promedio diferente al de la población.
Según el último censo nacional, la altura promedio de la población es de 1.70 metros para hombres (+18), con desviación estándar de \(.5\) metros. Se hace un muestreo en la ciudad de Mérida de 120 personas y se estima que su media es de 1.60 metros. ¿Son los Yucatecos más bajos que el Mexicano promedio?
\[ H_0: \mu \geq 1.70 \\ H_A: \mu < 1.70 \\ \]
La distribución de la altura es normal.
\[ t = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]
Con los datos:
\[ t = \frac{1.60 - 1.70}{0.5/\sqrt{120}} \]
(1.60 - 1.70)/(0.5/sqrt(120))
## [1] -2.19089
En tabla: El \(p-value\) es la probabilidad de \(P(Z>2.19)=0.0143\).
En Excel, debido a que es la p. acumulada de la cola izquierda:
=1 - DISTR.NORM.ESTAND(2.19)=0.0142
¿Son los Yucatecos significativamente más bajos que el promedio de los hombres mexicanos?
Se puede concluir que los Yucatecos son más bajos que el promedio de los hombres mexicanos.
Según el INEGI, el 95.6% de la población de 3 a 29 años inscrita en el ciclo escolar 2021-2022 contó en su vivienda con celular inteligente. Supongamos que se realiza una encuesta en la ciudad de Mérida con una muestra de 150 personas de la misma franja de edad y se estima que el 90% de ellas tienen un celular inteligente. ¿Es la proporción de jóvenes con celulares inteligentes en Mérida menor que la media nacional?
\[ H_0: p \geq 0.956 \] \[ H_A: p < 0.956 \]
\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p \cdot (1 - p)}{n}}} \]
Con los datos proporcionados:
\[ z = \frac{0.90 - 0.956}{\sqrt{\frac{0.956 \cdot (1 - 0.956)}{150}}} \]
(0.90 - 0.956) / sqrt((0.956 * (1 - 0.956)) / 150)
## [1] -3.344093
En tabla: El \(p-value\) es la probabilidad de \(P(Z>3.34)=0.0010\) (aprox).
En Excel, debido a que es la p. acumulada de la cola izquierda:
=1 - DISTR.NORM.ESTAND(3.34)=0.0004
¿Es la proporción de jóvenes con celulares inteligentes en Mérida menor que la media nacional?
La proporción de jóvenes con celulares inteligentes en Mérida es significativamente menor que la media nacional.
## Versión: 14/02/2024
Smith, G. (2015). Essential statistics, regression, and econometrics.
Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.
Anderson, Sweeney & Williams, (2010). Statistics for Business and Economics.
ENCUESTA NACIONAL SOBRE ACCESO Y PERMANENCIA EN LA EDUCACIÓN