2024-01-17

Tema 1.4 Tamaño de la Muestra.

Tema 1.4.1 Tamaño de la Muestra.

  • En los temas [1-3] hemos estudiado técnicas para la estimación de parámetros.

  • En los temas [1-3] técnicas para el cómputo de probabilidades.

  • Pero es necesario determinar un tamaño de muestra adecuado para estimar con precisión nuestros parámetros.

Tema 1.4.2 Tipo de variable.

¿Qué tipo de variable vamos a muestrear?

  • Variables Continuas: Se miden (Tiempo, temperatura, velocidad…).

  • Variables Discretas: Se cuentan (# hijos, # estudiantes, # maestros…).

Tema 1.4.3 Tipo de estudio.

  • Estudios de observación: implican observar y medir individuos o grupos sin intervenir ni manipular variables. En los estudios observacionales, los investigadores simplemente observan lo que sucede naturalmente.

  • Estudios experimentales: implican la manipulación activa de variables y la evaluación de los efectos de esas manipulaciones. Los investigadores controlan y manipulan variables para establecer relaciones de causa y efecto.

Tema 1.4.3. Tipo de estudio, Observación.

Determinantes del rendimiento académico:

  • Se recopila datos sobre horas de estudio.
  • Asistencia a clases.
  • Uso de recursos de aprendizaje.
  • Evaluaciones del profesor.

Sin intervenir en los hábitos de estudio de los estudiantes.

Tema 1.4.3. Tipo de estudio, Experimental.

Determinantes del rendimiento académico:

  • Se asignan aleatoriamente a dos grupos de estudiantes.
  • Se controlan las variables y la influencia externa.
  • Un grupo usa una técnica de estudio específica(novedosa)
  • Otro grupo sigue sus métodos habituales.
  • Se mide y compara el rendimiento de ambos grupos.

Tema 1.4.3. Tipo de estudio, Observación.

Los estudios de observación:

  • Son más comunes en las ciencias sociales.

  • Tienden a tener más problemas de sesgo (selección, medición, ect…)

  • Es más complicado establecer relaciones causales.

  • Hay más abundancia de datos.

Tema 1.4.3. Tipo de estudio, Experimental.

Los estudios experimentales (RCT):

  • Tienden a tener más menos problemas de sesgo.

  • Es más fácil establecer relaciones causa-efecto.

  • Es más costoso recopilar datos.

  • Pueden tener problemas éticos.

  • No aplica para todas las variables.

Tema 1.4.3. Abundancia de Estudios de Observación.

  • Relevancia y aplicabilidad en la vida práctica.

  • Abundancia de datos.

  • Menos costo y problemas éticos.

Tema 1.4.4. Muestreo con Reemplazo

  • En el muestreo con reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en cada extracción.

  • Después de seleccionar un elemento, este se devuelve a la población antes de realizar la siguiente extracción.

  • Este método permite que un elemento sea seleccionado más de una vez en la muestra.

Tema 1.4.4. Muestreo sin Reemplazo

  • En el muestreo sin reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en la primera extracción.

  • Este método garantiza que cada elemento sea seleccionado exactamente una vez en la muestra.

Tema 1.4.4. Muestreo con Reemplazo (situaciones)

  • \(N<n\)

  • En situaciones donde la reposición de los elementos no afecta significativamente los resultados.

  • Para alcanzar mejores propiedades cuando la población es pequeña.

Tema 1.4.4. Muestreo con Reemplazo (situaciones)

  • \(N<n\)

  • Garantizar que cada elemento sea seleccionado exactamente una vez en la muestra.

  • La reposición de los elementos podría distorsionar los resultados.

  • \(N/n\): Depende de cada estudio, requiere investigación.

Tema 1.4.5. Condiciones Principales del Muestreo iid

  • El muestreo iid (independiente e idénticamente distribuido) es fundamental para aplicar correctamente la fórmula de tamaño de muestra. Las principales condiciones son:

  • Independencia: Las observaciones en la muestra deben ser independientes entre sí, es decir, el valor de una observación no está influenciado por el valor de otra.

  • Identidad de Distribución: Las observaciones deben tener la misma distribución de probabilidad.

  • Tamaño de Muestra Suficiente: El tamaño de la muestra debe ser lo suficientemente grande para garantizar que las estimaciones sean precisas y confiables.

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, C/S Remplazo.

Fórmula: \[ n = \frac{{Z^2 \cdot \sigma^2}}{{E^2}},\; E = Z \frac{\sigma}{\sqrt{n}} \]

Donde:

  • \(n\) es el tamaño de la muestra.

  • \(Z\) es el valor crítico de la distribución normal estándar, asociado con el nivel de confianza deseado.

  • \(\sigma\) es la desviación estándar de la población o su estimador.

  • \(E\) es el margen de error deseado.

  • Con o sin remplazo.

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (1/1)

  • Se quiere estimar la estatura media de los estudiantes de una universidad.

  • Con un nivel de confianza del 90%.

  • Supongamos también que la desviación estándar es de 8 centímetros.

  • Nos interesa tolerar un margen de error del 10%.

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (1/2)

  • Se busca en la tabla el valor crítico para un nivel de confianza de 90%, considerando \(\alpha/2=.1/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-(.9+.1/2)=0.05\) correspondiente a \(Z=1.64\).

  • En Excel:

=DISTR.NORM.INV(.95,0,1)=1.6449
  • En R:
qnorm(.95)
## [1] 1.644854

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (1/3)

Sustituyendo:

\[ n = \frac{{(1.644854)^2 \cdot (8)^2}}{{(.1)^2}} \]

(1.644854^2*8^2)/.1^2
## [1] 17315.49

El tamaño de muestra:

\[ n=17315.49∼18316 \]

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (2/1)

Para estudiar la imagen de los diferentes políticos, se pide a los encuestados que los evalúen en una escala (continúa) de 0 a 10 puntos.

  • Si la desviación típica de esta variable es de 1.5 puntos y se quiere estimar la muestra con un nivel de significancia del 95%.

¿Cuántos casos se necesitan para alcanzar un error máximo de 0.05 puntos?

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (2/2)

  • Se busca en la tabla el valor crítico para un nivel de confianza de 95%, considerando \(\alpha/2=.05/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.975=0.025\) correspondiente a \(Z=1.96\).

  • En Excel:

=DISTR.NORM.INV(.975,0,1)=1.96
  • En R:
qnorm(.975)
## [1] 1.959964

Tema 1.4.5 Estimación de \(n\), Continua o Discreta, Ejemplo (2/3)

Sustituyendo:

\[ n = \frac{{(1.96)^2 \cdot (1.5)^2}}{{(0.05)^2}} \]

(1.96^2*1.5^2)/0.05^2
## [1] 3457.44

El tamaño de muestra:

\[ n=3457.44∼3458 \]

Tema 1.4.5 Estimación de \(n\) Para una Proporción.

Cuando la proporción de una variable categórica \((X)\) binaria es conocida:

\[ n = \frac{{Z^2 \cdot p \cdot (1-p)}}{{E^2}} \]

Donde:

  • \(X\) se distribuye de forma binomial (éxito o fracaso), \(p\) es la proporción estimada (constante) y \(n\) es el tamaño de la muestra.

  • \(Z\) es el valor crítico de la distribución normal estándar, asociado con el nivel de confianza deseado y \(E\) es el margen de error deseado.

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (1/1)

Se quiere estimar la proporción de hogares que poseen automóvil en una determinada ciudad. Si se estima que la proporción estimada de hogares con automóvil es del 60%.

¿Cuál es el tamaño de muestra necesario para estimar esta proporción con un margen de error máximo del 5% y un nivel de confianza del 95%.

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (2/1)

  • Se busca en la tabla el valor crítico para un nivel de confianza de 95%, considerando \(\alpha/2=.05/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.975=0.025\) correspondiente a \(Z=1.96\).

  • En Excel:

=DISTR.NORM.INV(.975,0,1)=1.96
  • En R:
qnorm(.975)
## [1] 1.959964

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (3/1)

Sustituyendo:

n =

(1.96^2*.6*(1-.6))/0.05^2
## [1] 368.7936

El tamaño de muestra:

\[ n=368.7936 \sim 369 \]

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (2/1)

  • Se quiere estimar la proporción de personas que tienen una cuenta bancaria.
  • Si se estima que la proporción estimada de personas con cuenta bancaria es del 40%.
  • Se puede tolerar un error maximo de 10%. ¿Cuál es el tamaño de muestra necesario para estimar esta proporción con un nivel de confianza del 90%?

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (2/1)

  • Se busca en la tabla el valor crítico para un nivel de confianza de 90%, considerando \(\alpha/2=.1/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.95=0.05\) correspondiente a \(Z=1.96\).

  • En Excel:

=DISTR.NORM.INV(.95,0,1)=1.645
  • En R:
qnorm(.95)
## [1] 1.644854

Tema 1.4.5 Estimación de \(n\) Para una Proporción, Ejemplo (3/1)

Sustituyendo:

n =

(1.645^2*.6*(1-.6))/0.1^2
## [1] 64.9446

El tamaño de muestra:

\[ n=64.9446∼65 \]

Tema 1.4.5 Estimación de \(n\) sin conocer la proporcion

Usando la fórmula:

\[ n = \left(\frac{Z}{2E}\right)^2 \]

Cuando: \[ Max(\sigma) = \sqrt{n \cdot p \cdot (1-p)}=0.5 \]

Por lo tanto suele dar un tamaño de muestra mayor.

Tema 1.4.5 Estimación de \(n\) sin conocer la proporcion, Ejemplo (1/1)

  • Estimar el porcentaje de estudiantes universitarios que tienen una tablet con un margen de error máximo de 10%.
  • Usando un nivel de confianza del 90%

¿Cuántos estudiantes se necesitan para esta muestra?

\[ n = \left(\frac{1.645}{2 \times 0.1}\right)^2 \]

(1.645/(2*0.1))^2
## [1] 67.65062

\[ n = 67.65 \sim 68 \]

Tema 1.4.5 Estimación de \(n\) sin conocer la proporcion, Ejemplo (1/1)

  • Se quiere estimar el porcentaje de hogares que tienen acceso a internet con un margen de error máximo de 5% y un nivel de 95%.

¿Cuántos hogares se necesitan para esta muestra?

\[ n = \left(\frac{1.645}{2 \times 0.1}\right)^2 \]

(1.96/(2*0.05))^2
## [1] 384.16

\[ n = 384.16 \sim 385 \]

Tema 1.4.5 Estimación de \(n\) conociendo \(N\)

  • Para variables continuas o discretas.
  • Si se conoce el tamaño de la población.
  • Si se muestrea sin remplazo.

Entonces, se puede usar: \[ n = \frac{N}{1+N \cdot E^2} \]

Tema 1.4.5 Estimación de \(n\) conociendo \(N\), Ejemplo (1/1)

Se quiere estimar la proporción de personas que consumen pasta en una ciudad con una población de 500,000 habitantes, con un nivel de precisión del 5% y un nivel de confianza del 95%.

\[ n = \frac{500000}{1+500000 \cdot (.05))^2} \]

500000/(1+500000*0.05^2)
## [1] 399.6803

\[ n = 399.6803 \sim 400 \]

Revisión

Revisión

## Versión: 27/02/2024

Bibliografía

Bibliografía