2024-01-17
En los temas [1-3] hemos estudiado técnicas para la estimación de parámetros.
En los temas [1-3] técnicas para el cómputo de probabilidades.
Pero es necesario determinar un tamaño de muestra adecuado para estimar con precisión nuestros parámetros.
¿Qué tipo de variable vamos a muestrear?
Variables Continuas: Se miden (Tiempo, temperatura, velocidad…).
Variables Discretas: Se cuentan (# hijos, # estudiantes, # maestros…).
Estudios de observación: implican observar y medir individuos o grupos sin intervenir ni manipular variables. En los estudios observacionales, los investigadores simplemente observan lo que sucede naturalmente.
Estudios experimentales: implican la manipulación activa de variables y la evaluación de los efectos de esas manipulaciones. Los investigadores controlan y manipulan variables para establecer relaciones de causa y efecto.
Determinantes del rendimiento académico:
Sin intervenir en los hábitos de estudio de los estudiantes.
Determinantes del rendimiento académico:
Los estudios de observación:
Son más comunes en las ciencias sociales.
Tienden a tener más problemas de sesgo (selección, medición, ect…)
Es más complicado establecer relaciones causales.
Hay más abundancia de datos.
Los estudios experimentales (RCT):
Tienden a tener más menos problemas de sesgo.
Es más fácil establecer relaciones causa-efecto.
Es más costoso recopilar datos.
Pueden tener problemas éticos.
No aplica para todas las variables.
Relevancia y aplicabilidad en la vida práctica.
Abundancia de datos.
Menos costo y problemas éticos.
En el muestreo con reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en cada extracción.
Después de seleccionar un elemento, este se devuelve a la población antes de realizar la siguiente extracción.
Este método permite que un elemento sea seleccionado más de una vez en la muestra.
En el muestreo sin reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en la primera extracción.
Este método garantiza que cada elemento sea seleccionado exactamente una vez en la muestra.
\(N<n\)
En situaciones donde la reposición de los elementos no afecta significativamente los resultados.
Para alcanzar mejores propiedades cuando la población es pequeña.
\(N<n\)
Garantizar que cada elemento sea seleccionado exactamente una vez en la muestra.
La reposición de los elementos podría distorsionar los resultados.
\(N/n\): Depende de cada estudio, requiere investigación.
El muestreo iid (independiente e idénticamente distribuido) es fundamental para aplicar correctamente la fórmula de tamaño de muestra. Las principales condiciones son:
Independencia: Las observaciones en la muestra deben ser independientes entre sí, es decir, el valor de una observación no está influenciado por el valor de otra.
Identidad de Distribución: Las observaciones deben tener la misma distribución de probabilidad.
Tamaño de Muestra Suficiente: El tamaño de la muestra debe ser lo suficientemente grande para garantizar que las estimaciones sean precisas y confiables.
Fórmula: \[ n = \frac{{Z^2 \cdot \sigma^2}}{{E^2}},\; E = Z \frac{\sigma}{\sqrt{n}} \]
Donde:
\(n\) es el tamaño de la muestra.
\(Z\) es el valor crítico de la distribución normal estándar, asociado con el nivel de confianza deseado.
\(\sigma\) es la desviación estándar de la población o su estimador.
\(E\) es el margen de error deseado.
Con o sin remplazo.
Se quiere estimar la estatura media de los estudiantes de una universidad.
Con un nivel de confianza del 90%.
Supongamos también que la desviación estándar es de 8 centímetros.
Nos interesa tolerar un margen de error del 10%.
Se busca en la tabla el valor crítico para un nivel de confianza de 90%, considerando \(\alpha/2=.1/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-(.9+.1/2)=0.05\) correspondiente a \(Z=1.64\).
En Excel:
=DISTR.NORM.INV(.95,0,1)=1.6449
qnorm(.95)
## [1] 1.644854
Sustituyendo:
\[ n = \frac{{(1.644854)^2 \cdot (8)^2}}{{(.1)^2}} \]
(1.644854^2*8^2)/.1^2
## [1] 17315.49
El tamaño de muestra:
\[ n=17315.49∼18316 \]
Para estudiar la imagen de los diferentes políticos, se pide a los encuestados que los evalúen en una escala (continúa) de 0 a 10 puntos.
¿Cuántos casos se necesitan para alcanzar un error máximo de 0.05 puntos?
Se busca en la tabla el valor crítico para un nivel de confianza de 95%, considerando \(\alpha/2=.05/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.975=0.025\) correspondiente a \(Z=1.96\).
En Excel:
=DISTR.NORM.INV(.975,0,1)=1.96
qnorm(.975)
## [1] 1.959964
Sustituyendo:
\[ n = \frac{{(1.96)^2 \cdot (1.5)^2}}{{(0.05)^2}} \]
(1.96^2*1.5^2)/0.05^2
## [1] 3457.44
El tamaño de muestra:
\[ n=3457.44∼3458 \]
Cuando la proporción de una variable categórica \((X)\) binaria es conocida:
\[ n = \frac{{Z^2 \cdot p \cdot (1-p)}}{{E^2}} \]
Donde:
\(X\) se distribuye de forma binomial (éxito o fracaso), \(p\) es la proporción estimada (constante) y \(n\) es el tamaño de la muestra.
\(Z\) es el valor crítico de la distribución normal estándar, asociado con el nivel de confianza deseado y \(E\) es el margen de error deseado.
Se quiere estimar la proporción de hogares que poseen automóvil en una determinada ciudad. Si se estima que la proporción estimada de hogares con automóvil es del 60%.
¿Cuál es el tamaño de muestra necesario para estimar esta proporción con un margen de error máximo del 5% y un nivel de confianza del 95%.
Se busca en la tabla el valor crítico para un nivel de confianza de 95%, considerando \(\alpha/2=.05/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.975=0.025\) correspondiente a \(Z=1.96\).
En Excel:
=DISTR.NORM.INV(.975,0,1)=1.96
qnorm(.975)
## [1] 1.959964
Sustituyendo:
n =
(1.96^2*.6*(1-.6))/0.05^2
## [1] 368.7936
El tamaño de muestra:
\[ n=368.7936 \sim 369 \]
Se busca en la tabla el valor crítico para un nivel de confianza de 90%, considerando \(\alpha/2=.1/2\) tomando la probabilidad de la cola derecha en tabla: \(P(Z>z)=1-0.95=0.05\) correspondiente a \(Z=1.96\).
En Excel:
=DISTR.NORM.INV(.95,0,1)=1.645
qnorm(.95)
## [1] 1.644854
Sustituyendo:
n =
(1.645^2*.6*(1-.6))/0.1^2
## [1] 64.9446
El tamaño de muestra:
\[ n=64.9446∼65 \]
Usando la fórmula:
\[ n = \left(\frac{Z}{2E}\right)^2 \]
Cuando: \[ Max(\sigma) = \sqrt{n \cdot p \cdot (1-p)}=0.5 \]
Por lo tanto suele dar un tamaño de muestra mayor.
¿Cuántos estudiantes se necesitan para esta muestra?
\[ n = \left(\frac{1.645}{2 \times 0.1}\right)^2 \]
(1.645/(2*0.1))^2
## [1] 67.65062
\[ n = 67.65 \sim 68 \]
¿Cuántos hogares se necesitan para esta muestra?
\[ n = \left(\frac{1.645}{2 \times 0.1}\right)^2 \]
(1.96/(2*0.05))^2
## [1] 384.16
\[ n = 384.16 \sim 385 \]
Entonces, se puede usar: \[ n = \frac{N}{1+N \cdot E^2} \]
Se quiere estimar la proporción de personas que consumen pasta en una ciudad con una población de 500,000 habitantes, con un nivel de precisión del 5% y un nivel de confianza del 95%.
\[ n = \frac{500000}{1+500000 \cdot (.05))^2} \]
500000/(1+500000*0.05^2)
## [1] 399.6803
\[ n = 399.6803 \sim 400 \]
## Versión: 27/02/2024