2024-02-19
\[ Z = \frac{(\overline{x}_1 - \overline{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]
donde:
\(\overline{x}_1\) y \(\overline{x}_2\) son las medias muestrales.
\(\mu_1\) y \(\mu_2\) son las medias poblacionales bajo \(H_0\).
\(\sigma_1\) y \(\sigma_2\) son las desviaciones estándar poblacionales.
\(n_1\) y \(n_2\) son los tamaños de las muestras.
Estadístico de Prueba (Z-score):
\[ Z = \frac{(p_1 - p_2) - (p_{1_0} - p_{2_0})}{\sqrt{\frac{{p_1(1-p_1)}}{n_1} + \frac{{p_2(1-p_2)}}{n_2}}} \]
Donde:
\(p_1\) y \(p_2\) son las proporciones muestrales de las dos muestras respectivamente.
\(p_{1_0}\) y \(p_{2_0}\) son las proporciones poblacionales bajo la hipótesis nula.
\(n_1\) y \(n_2\) son los tamaños de las muestras 1 y 2 respectivamente.
Para analizar la relación entre variables categóricas y determinar si hay una asociación significativa entre ellas.
La prueba de hipótesis más común para datos categóricos es la prueba de chi-cuadrado (\(\chi^2\)).
Se usa para variables categóricas nominales (sin orden).
Se asume que hay independencia entre las categorias (supuesto dificil de cumplir).
Supón que hay una función selección \(f(X=k)\) (por ejemplo preferencias), donde \(k\) son las categorías.
La prueba \(\chi^2\), asume que los determinantes de \(f(X=k)\) son diferentes de \(f(X \neq k)\).
Por ejemplo:
Supón que personas con mayor nivel educativo seleccionan el sector privado o educación.
\[ \chi^2_{df} = \sum_{k=1}^{k} \frac{(O_k - E_k)^2}{E_k} \]
Donde:
\(\chi^2\) es el estadístico de chi-cuadrado.
\(O_k\) son las frecuencias observadas en la cat \(k\).
\(E_k\) son las frecuencias esperadas en la cat \(k\).
\(df=k-1\) son los grados de libertad.
Como parte de un estudio para evaluar diferencias en la calidad educativa entre dos universidades (\(A\) y \(B\)), se realiza un examen estandarizado a estudiantes que fueron entrenados en las universidades.
La diferencia entre los puntajes promedio del examen se utiliza para evaluar diferencias de calidad entre las universidades.
Si se tomaron muestras aleatorias simples e independientes de \(n_1\) = 30 individuos de la universidad \(A\) y \(n_2\) = 40 individuos de la universidad \(B\). Y las medias de muestra respectivas son \(\overline{x}_1=82\) y \(\overline{x}_2=78\) y se sabe que \(\sigma_1 = 10\) y \(\sigma_2 = 10\).
¿Existe una diferencia significativa entre la calidad de las dos universidades usando \(\alpha=.05\)?
Las hipótesis para la prueba de dos colas:
\(H_0=\mu_1 - \mu_2=0\): No hay diferencia significativa en la calidad de las universidades A y B.
\(H_A= \mu_1 - \mu_2 \neq 0\): Hay una diferencia significativa en la calidad las universidades A y B.
El z-score:
\[ Z = \frac{(82 - 78) - (0)}{\sqrt{\frac{10^2}{30} + \frac{10^2}{40}}} \]
## [1] 1.656157
El valor crítico para \(\alpha=.05\):
Buscar en tabla el valor crítico para \(\alpha=.05/2=0.025\)
En Excel, \(1-0.025=0.975\)
=DISTR.NORM.INV(.9750,0,1)=1.96
¿Existe una diferencia significativa entre la calidad de las dos universidades?
No hay evidencia de una diferencia significativa en la calidad de las universidades.
El gasto promedio en el Día de San Valentín fue de \(100.89\) USD (USA Today, 13 de febrero de 2006). El gasto promedio en una encuesta de muestra de \(n_1=40\) consumidores masculinos fue de \(135.67\) USD, y el gasto promedio en una encuesta de muestra de \(n_2=30\) consumidoras femeninas fue de \(68.64\) USD. Según encuestas anteriores, la desviación estándar para los consumidores masculinos se asume que es de \(35\) USD, y la desviación estándar para las consumidoras femeninas se asume que es de \(20\) USD. ¿Difieren los consumidores masculinos y femeninos en los montos que gastan con un \(\alpha=.05\)?
Las hipótesis para la prueba de dos colas:
El z-score:
\[ Z = \frac{(135.67 - 68.64) - (0)}{\sqrt{\frac{35^2}{40} + \frac{20^2}{30}}} \]
## [1] 10.10994
El valor crítico para \(\alpha=.05\):
Buscar en tabla el valor crítico para \(\alpha=.05/2=0.025\)
En Excel, \(1-0.025=0.975\)
=DISTR.NORM.INV(.9750,0,1)=1.96
¿Existe una diferencia significativa entre los montos gastados por consumidores masculinos y femeninos?
Hay evidencia de una diferencia significativa en los montos gastados entre consumidores masculinos y femeninos.
Supongamos que estamos interesados en investigar si hay una diferencia significativa en la proporción de personas que utilizan Internet entre dos grupos de población: jóvenes adultos (18-34 años) y adultos mayores (65 años o más).
Datos: - En la población de jóvenes adultos, el 75% utiliza Internet. - En la población de adultos mayores, el 50% utiliza Internet. - Tamaño de la muestra de jóvenes adultos: \(n_1 = 500\). - Tamaño de la muestra de adultos mayores: \(n_2 = 300\). - Utiliza un \(\alpha=.05\).
Las hipótesis para la prueba de dos colas son:
\(H_0=p_1 - p_2 = 0\): No hay diferencia significativa en la proporción de uso de Internet entre jóvenes adultos y adultos mayores.
\(H_A: p_1 - p_2 \neq 0\): Hay una diferencia significativa en la proporción de uso de Internet entre jóvenes adultos y adultos mayores.
La fórmula para el estadístico de prueba (Z-score) para la diferencia de dos proporciones poblacionales es:
\[ Z = \frac{(0.75 - 0.50) - 0}{\sqrt{\frac{0.75(1-0.75)}{500} + \frac{0.50(1-0.50)}{300}}} \]
## [1] 7.19195
Como \(|7.19| > 1.96\), rechazamos la hipótesis nula (\(H_0\)).
Conclusión: Hay evidencia de una diferencia significativa en la proporción de uso de Internet entre jóvenes adultos y adultos mayores. Los jóvenes adultos tienen una proporción significativamente mayor de uso de Internet en comparación con los adultos mayores.
Supongamos que estamos interesados en investigar si hay una diferencia significativa en la proporción de personas que hablan un idioma indígena en zonas urbanas es menor que en zonas rurales en México. De acuerdo a INEGI:
Datos: - En la población de zonas urbanas, el 10% de las personas habla un idioma indígena.
En la población de zonas rurales, el 30% de las personas habla un idioma indígena.
Tamaño de la muestra de zonas urbanas: \(n_1 = 800\).
Tamaño de la muestra de zonas rurales: \(n_2 = 600\).
Utiliza un \(\alpha=.05\).
Las hipótesis para la prueba de una colas son:
\(H_0: p_1 - p_2 \geq 0\): La diferencia entre la proporción de personas que hablan un idioma indígena entre zonas urbanas y zonas rurales es mayor o igual a cero.
\(H_A: p_1 - p_2 < 0\):* La diferencia entre la proporción de personas que hablan un idioma indígena entre zonas urbanas y zonas rurales es menor que cero.
Calculando:
\[ Z = \frac{(0.10 - 0.30) - 0}{\sqrt{\frac{0.10(1-0.10)}{800} + \frac{0.30(1-0.30)}{600}}} \]
## [1] -9.299811
Como \(|-9.3| > |-1.645|\), rechazamos la hipótesis nula (\(H_0\)).
Conclusión: Hay evidencia de una diferencia significativa en la proporción de personas que hablan un idioma indígena entre zonas urbanas y zonas rurales en México. Las zonas urbanas tienen una proporción significativamente menor de personas que hablan un idioma indígena en comparación con las zonas rurales.
Supongamos que hemos realizado una encuesta sobre el nivel de educación en México y hemos recopilado información de una muestra de 1000 personas. Las categorías de nivel de educación son: Educación Primaria, Educación Secundaria y Educación Superior. ¿Existe alguna relación significativa entre los niveles de educación en México basada en nuestra encuesta? Contesta con \(\alpha=0.05\)
A partir de la muestra se tiene la siguiente tabla de frecuencias(contingencia):
Nivel de Educación | Frecuencia Observada (O) | Frecuencia Esperada (E) |
---|---|---|
Educación Primaria | 400 | 333.33 |
Educación Secundaria | 450 | 400.00 |
Educación Superior | 150 | 266.67 |
Las hipótesis para la prueba de una colas son:
\(H_0: E_1 = E_2 = E_3\): no hay diferencia significativa entre las frecuencias observadas y las frecuencias esperadas para cada categoría. En otras palabras, bajo \(H_0\), se espera que la proporción de observaciones en cada categoría sea la misma.
\(H_A: \text{Al menos una } E_k \text{ es diferente.}\) Al menos una de las frecuencias observadas es significativamente diferente de la frecuencia esperada. En otras palabras, al menos una de las categorías tiene una proporción de observaciones que difiere de lo esperado.
Estimado en valor crítico para \(H_a\):
## [1] 70.64215
qchisq(p = 0.05/2, df = 2, lower.tail = FALSE)
## [1] 7.377759
En tabla, columna \(0.025\) y \(df=2\), es \(7.378\)
En Excel:
PRUEBA.CHI.INV(0.025,2)=7.377759
Como \(|70.64215| > |7.738|\), rechazamos la hipótesis nula (\(H_0\)).
Conclusión: Hay evidencia de una asociación significativa entre los niveles de educación en Mexico.
Supongamos que hemos realizado una encuesta en una escuela con 500 alumnos para determinar su preferencia de color para el día de San Valentín. Las categorías de color son: Rojo, Azul y Morado. Queremos analizar si existe una preferencia significativamente mayor por el color Rojo en comparación con los otros colores usando un nivel de significancia del 5%.
Las hipótesis para la prueba de una cola son:
\(H_0: E_{rojo} = E_{azul} = E_{morado}\): No hay diferencia significativa entre la selección del color rojo y los otros colores.
\(H_A: E_{rojo} \neq E_{azul} \neq E_{morado}\) Hay diferencia significativa entre la selección del color rojo y los otros colores.
A partir de la muestra se tiene esta tabla de frecuencias(contingencias):
Color de Preferencia | Frecuencia Observada (\(O\)) | Frecuencia Esperada (\(E\)) |
---|---|---|
Rojo | 200 | 166.67 |
Azul | 150 | 166.67 |
Morado | 150 | 166.67 |
Estimado en valor crítico para \(H_a\):
(200 - 166.67)^2/166.67
## [1] 6.6652
qchisq(p = 0.05, df = 2, lower.tail = FALSE)
## [1] 5.991465
En tabla, columna \(0.05\) y \(df=2\), es \(5.991\)
En Excel:
PRUEBA.CHI.INV(0.05,2)=5.991
Como \(|6.6652| > |5.991|\), rechazamos la hipótesis nula (\(H_0\)).
Conclusión: Existe una preferencia por el color rojo en el día de San Valentín.
## Versión: 19/02/2024
Smith, G. (2015). Essential statistics, regression, and econometrics.
Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.
Anderson, Sweeney & Williams, (2010). Statistics for Business and Economics.