2024-02-13

Tema 2 Pruebas de hipótesis.

Tema 2.1 Introducción.

¿Cómo podemos tomar decisiones basadas en datos?

  • La prueba de hipótesis nos ofrece un marco estadístico para hacerlo.

  • Comienza con una afirmación sobre una población:

Los ingresos mensuales de los trabajadores de negocios es superior a los de ingeniería.

El tiempo de estudio a la semana de los estudiantes de negocios es superior a 10 hras.

El tiempo de entrega del proveedor X es superior a la del proveedor Y.

etc.

Tema 2.1 Introducción.

  • Típicamente, no hay recursos para un censo, y trabajos con muestras representativas e idealmente aleatorias.

  • Definimos dos afirmaciones mutuamente excluyentes.

  • Aplicamos el principio de contradicción.

  • Popper argumentaba que la ciencia no busca probar afirmaciones, sino más bien refutarlas.

  • El proceso de validación de nuestro argumento busca ser objetivo y eliminar sesgos de confirmación.

  • Debemos dar margen a estar equivocados.

Tema 2.1 Introducción.

  • Formulamos dos hipótesis (afirmaciones) mutuamente excluyentes.

  • Buscar evidencia para demostrar que una es falsa en favor de una alternativa.

  • Aplicar diferentes métodos estadísticos en función de la variable (continua, binaria, categórica) y del tipo de muestra.

  • Determinar si hay suficiente evidencia para validar una afirmación acerca de la población por medio de la muestra (inferencia).

Tema 2.1 Pruebas de hipótesis, Usos.

  • Apoyar o refutar teorías, conocimientos empíricos o creencias.

  • Tomar decisiones efectivas.

  • Buscar consenso.

  • Evaluar el desempeño.

  • Evaluar el impacto de intervenciones o tratamientos*.

Tema 2.3 Limitaciones.

  • Las conclusiones no son definitivas, están sujetas a aleatoriedad y a error de muestreo.

  • No determinan causalidad de manera directa, más bien una asociación.

  • No ofrecen explicaciones sobre los mecanismos o determinantes subyacentes.

  • Las conclusiones de las pruebas de hipótesis pueden estar influenciadas por supuestos no cumplidos.

Tema 2.3 Componentes de la prueba de Hipótesis.

  1. La muestra representativa idealmente aleatoria de una población.

  2. Las hipótesis (o argumentos): \[ H_0: \text{Nula}\\ H_A: \text{Alternativa}\\ \]

  3. Regla de deción basada en probabilidad.

  • Un nivel máximo para determinar que no hay evidencia para afirmar \(H_0\).
  • Es decir, un nivel de significancia \(\alpha\).

Tema 2.4 Vocabulario de la prueba de Hipótesis.

Se concluye haciendo énfasis al respecto de \(H_0\).

  • Fallar en rechazar: no hay suficiente evidencia para rechazar \(H_0\).
  • Fallar en rechazar: no implica que nuestra “teoría” \(H_A\) es verdadera.
  • Fallar en rechazar: implica que no hay evidencia a favor de \(H_A\).
  • Rechazar: existe evidencia a favor \(H_A\).

Se utiliza este vocabulario para separar la verdad de la inferencia.

Tema 2.5 Elementos de la prueba de Hipótesis.

  • El nivel de confianza \(1- \alpha\), representa un intervalo intervalo de confianza en el que es probable se encuentre el parámetro bajo \(H_0\).

  • Por el lado \(\alpha\), representa una región de rechazo.

  • Necesitamos una estadística(métrica), que nos ayude a determinar la presencia de \(H_A\), en torno a la distribución de la \(H_0\).

  • Definimos \(p-value\): la probabilidad de observar un resultado al menos tan extremo como el que se observó \(H_A\), asumiendo que la hipótesis nula es verdadera.

2.6 Error tipo I y II.

Debido a que trabajamos con datos muestrales hay que considerar:

Decisión Correcta \(H_0\) Verdadero \(H_0\) Falso
Fallar en rechazar \(H_0\) Correcta Error de tipo II
Rechazar \(H_0\) Error de tipo I Correcta
  • La probabilidad de fallar en rechazar \(H_0\), cuando es verdadera es \(1-\alpha\).
  • Definimos \(\alpha\) como la máxima probabilidad de cometer un Error de Tipo I.

2.6 Error tipo I y II.

  • Sin embargo, al reducir \(\alpha\) somos más estrictos.

  • Es decir, es más difícil rechazar \(H_0\).

  • Si \(\alpha\) reduce se incrementa la probabilidad de cometer un Error de tipo II.

  • Es decir, fallar en rechazar \(H_0\) cuando en realidad es falsa.

Tema 2.5 Pruebas de Medias: \(\sigma\) conocido.

  • Cuando conocemos la desviación \(\sigma\) estándar de la población.
  • Tenemos una muestra aleatoria.

Si conocemos la media poblacional: \[ Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]

  • \(\mu\) es la media poblacional correspondiente a \(H_0\)
  • \(\overline{x}\) es el estimador correspondiente a \(H_A\)

Tema 2.6 Pruebas de Medias: \(\sigma\) desconocido.

  • Cuando no conocemos la desviación, \(\sigma\) pero estimamos \(s\).
  • Tenemos una muestra aleatoria.

\[ t = \frac{ \overline{x} - \mu}{s/\sqrt{n}} \]

Tema 2.6 Pruebas de Proporciones.

  • Cuando estamos interesados en eventos que tienen solo dos posibles resultados (exito o fracaso).

  • La varianza de una distribución binomial:

    \[\sigma^2 = np(1-p)\]

    y la desviación estándar es la raíz cuadrada de la varianza:

    \[\sigma = \sqrt{np(1-p)}\]

  • Para tener una mejor aproximación de la desviación en la muestra: \[s = \sqrt{p_0(1-p_0)/n}\]

Tema 2.6 Pruebas de Proporciones: \(\sigma\) desconocido.

La fórmula para la estadística de prueba en una prueba de proporciones es:

\[ z = \frac{p - p_0}{\sqrt{p_0(1-p_0)/n}} \]

donde:
  • \(x\) es el número de éxitos en la muestra,
  • \(n\) es el tamaño de la muestra,
  • \(p\) es la proporción en la población.

2.6 Tipos de Pruebas: Dos Colas.

  • De dos colas: cuando \(H_A\) no indica una dirección específica.

\[ H_0: \mu = \mu_{0} \\ H_A: \mu \neq \mu_{0} \\ \]

  • Una cola: cuando \(H_A\) indica una dirección específica.

2.6 Tipos de Pruebas: Dos Colas.

2.6 Tipos de Pruebas: Cola Inferior

  • Prueba de cola inferior (lower tail)

\[ H_0: \mu \geq \mu_{0} \\ H_A: \mu < \mu_{0}\\ \]

2.6 Tipos de Pruebas: Cola Inferior

2.6 Tipos de Pruebas: Cola Superior

  • Prueba de cola superior (upper tail)

\[ H_0: \mu \leq \mu_{0} \\ H_A: \mu > \mu_{0}\\ \]

2.7 Reglas para el rechazo de \(H_0\)

  1. Usando el valor crítico
  • Dos colas: \[\left| Z \right|> Z_{\alpha/2} \]

Una cola: \[\left| Z \right|> Z_{\alpha} \]

  1. Usando el \(p-value\) \[P(\left| Z \right|) < \alpha \]

Esto aplica para la t-student, replazar \(Z\) por \(t\).

2.8 Ejemplos

Usar un nivel de significancia de 5%.

2.8 Ejemplo (1/1)

De acuerdo a IQcouncil.com la media de IQ típica de la población es de 100 puntos y su desviación estándar es de 15 puntos. Se seleccionan 30 estudiantes de la escuela y resulta que su promedio es de 105 puntos. ¿Son los estudiantes de la escuela significativamente diferentes al promedio?

2.8 Ejemplo (1/2)

  1. Formular la hipótesis:

\[ H_0: \mu = 100 \\ H_A: \mu \neq \mu_{0} \\ \]

  • \(H_0:\) Los estudiantes de la escuela son iguales al promedio.
  • \(H_A:\) Los estudiantes de la escuela son diferentes del promedio.

La distribución del \(IQ\) es normal.

2.8 Ejemplo (1/3)

  1. Buscar el valor crítico de \(H_0\):
  • Necesitamos una prueba de dos colas.
  • En tabla tenemos la probabilidad (acumulada) en la cola derecha.
  • El valor crítico para \(\alpha/2=0.025\) es de \(1.96\).
  • Excel calcula la probabilidad de la cola izquierda:
=DISTR.NORM.INV(.9750,0,1)=1.96

2.8 Ejemplo (1/4)

  1. Calcular el valor crítico de \(H_A\):

\[ Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]

Con los datos:

\[ Z = \frac{105 - 100}{15/\sqrt{30}} \]

(105 - 100)/(15/sqrt(30))
## [1] 1.825742

2.8 Ejemplo (1/5)

  1. Estimar el \(p-value\):
  • En tabla: El \(p-value\) es la probabilidad de \(P(Z>1.83)=0.0336\).

  • En Excel, debido a que es la p. acumulada de la cola izquierda:

2.8 Ejemplo (1/6)

¿Son los estudiantes de la escuela significativamente diferentes al promedio?

  • Debido a que \(\left| 1.83 \right |< 1.96\) fallamos en rechazar \(H_0\).
  • Igualmente el \(p-value=0.0336>0.05\).

No hay evidencia estadística de que los alumnos tengan un IQ promedio diferente al de la población.

2.8 Ejemplo (2/1)

Según el último censo nacional, la altura promedio de la población es de 1.70 metros para hombres (+18), con desviación estándar de \(.5\) metros. Se hace un muestreo en la ciudad de Mérida de 120 personas y se estima que su media es de 1.60 metros. ¿Son los Yucatecos más bajos que el Mexicano promedio?

2.8 Ejemplo (2/2)

  1. Formular la hipótesis:

\[ H_0: \mu \geq 1.70 \\ H_A: \mu < 1.70 \\ \]

  • \(H_0:\) La altura promedio de los Yucatecos es igual o mayor que la altura promedio de los hombres mexicanos.
  • \(H_A:\) La altura promedio de los Yucatecos es menor que la altura promedio de los hombres mexicanos.

La distribución de la altura es normal.

2.8 Ejemplo (2/3)

  1. Calcular el valor crítico de \(H_0\):
  • Necesitamos una prueba de una cola.
  • En tabla tenemos la probabilidad (acumulada) en la cola derecha.
  • El valor crítico para \(\alpha=0.05\) es de \(-1.64\).

2.8 Ejemplo (2/4)

  1. Calcular el valor crítico de \(H_A\):

\[ t = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} \]

Con los datos:

\[ t = \frac{1.60 - 1.70}{0.5/\sqrt{120}} \]

(1.60 - 1.70)/(0.5/sqrt(120))
## [1] -2.19089

2.8 Ejemplo (2/5)

  1. Estimar el \(p-value\):
  • En tabla: El \(p-value\) es la probabilidad de \(P(Z>2.19)=0.0143\).

  • En Excel, debido a que es la p. acumulada de la cola izquierda:

=1 - DISTR.NORM.ESTAND(2.19)=0.0142

2.8 Ejemplo (2/6)

¿Son los Yucatecos significativamente más bajos que el promedio de los hombres mexicanos?

  • Debido a que \(2.19 > 1.65\), rechazamos \(H_0\) a un nivel de significancia del 5%.
  • Además, el \(p-value = 0.0142 < 0.05\).

Se puede concluir que los Yucatecos son más bajos que el promedio de los hombres mexicanos.

2.8 Ejemplo (3/1)

Según el INEGI, el 95.6% de la población de 3 a 29 años inscrita en el ciclo escolar 2021-2022 contó en su vivienda con celular inteligente. Supongamos que se realiza una encuesta en la ciudad de Mérida con una muestra de 150 personas de la misma franja de edad y se estima que el 90% de ellas tienen un celular inteligente. ¿Es la proporción de jóvenes con celulares inteligentes en Mérida menor que la media nacional?

2.8 Ejemplo (3/2)

  1. Formulación de hipótesis:

\[ H_0: p \geq 0.956 \] \[ H_A: p < 0.956 \]

  • \(H_0\): La proporción de jóvenes con celulares inteligentes en Mérida es igual o mayor que la media nacional.
  • \(H_A\): La proporción de jóvenes con celulares inteligentes en Mérida es menor que la media nacional.

2.8 Ejemplo (3/3)

  1. Valor crítico de \(H_0\):
  • Necesitamos una prueba de una cola.
  • En tabla tenemos la probabilidad (acumulada) en la cola derecha.
  • El valor crítico para \(\alpha = 0.05\) es de \(-1.645\).

2.8 Ejemplo (3/4)

  1. Valor crítico de \(H_A\):

\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p \cdot (1 - p)}{n}}} \]

Con los datos proporcionados:

\[ z = \frac{0.90 - 0.956}{\sqrt{\frac{0.956 \cdot (1 - 0.956)}{150}}} \]

(0.90 - 0.956) / sqrt((0.956 * (1 - 0.956)) / 150)
## [1] -3.344093

2.8 Ejemplo (3/5)

  1. Estimar el \(p-value\):
  • En tabla: El \(p-value\) es la probabilidad de \(P(Z>3.34)=0.0010\) (aprox).

  • En Excel, debido a que es la p. acumulada de la cola izquierda:

=1 - DISTR.NORM.ESTAND(3.34)=0.0004

2.8 Ejemplo (3/6)

¿Es la proporción de jóvenes con celulares inteligentes en Mérida menor que la media nacional?

  • Debido a que \(3.34 > 1.65\), rechazamos \(H_0\) a un nivel de significancia del 5%.
  • Además, el \(p-value = 0.0004 < 0.05\).

La proporción de jóvenes con celulares inteligentes en Mérida es significativamente menor que la media nacional.

Revisión

Revisión

## Versión: 14/02/2024

Bibliografía

Bibliografía