2024-02-06
En los temas [1-3] hemos estudiado técnicas para la estimación de parámetros.
En los temas [1-3] técnicas para el cómputo de probabilidades.
Pero es necesario determinar un tamaño de muestra adecuado para estimar con precisión nuestros parámetros.
¿Qué tipo de variable vamos a muestrear?
Variables Continuas: Se miden (Tiempo, temperatura, velocidad…)
Variables Discretas: Se cuentan (# hijos, # estudiantes, # maestros..)
Estudios de observación: implican observar y medir individuos o grupos sin intervenir ni manipular variables. En los estudios observacionales, los investigadores simplemente observan lo que sucede naturalmente.
Estudios experimentales implican la manipulación activa de variables y la evaluación de los efectos de esas manipulaciones. Los investigadores controlan y manipulan variables para establecer relaciones de causa y efecto.
Determinantes del rendimiento académico:
Sin intervenir en los hábitos de estudio de los estudiantes.
Determinantes del rendimiento académico:
Los estudios de observación:
Son más comunes en las ciencias sociales.
Tienden a tener más problemas de sesgo (selección, medición.
Es más complicado establecer relaciones causa-efecto.
Hay más abundancia de datos.
Los estudios experimentales (RCT):
Tienden a tener más menos problemas de sesgo.
Es más fácil establecer relaciones causa-efecto.
Es más costoso recopilar datos.
Pueden tener problemas éticos.
No aplica para todas las variables.
Relevancia y aplicabilidad en la vida práctica.
Abundancia de datos.
Menos costo y problemas éticos.
Menos complejos.
En el muestreo con reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en cada extracción.
Después de seleccionar un elemento, este se devuelve a la población antes de realizar la siguiente extracción.
Este método permite que un elemento sea seleccionado más de una vez en la muestra.
En el muestreo sin reemplazo, cada elemento de la población tiene la misma probabilidad de ser seleccionado en la primera extracción.
Este método garantiza que cada elemento sea seleccionado exactamente una vez en la muestra.
\(N<n\)
En situaciones donde la reposición de los elementos no afecta significativamente los resultados.
Para alcanzar mejores propiedades cuando la población es pequeña.
\(N>n\)
Garantizar que cada elemento sea seleccionado exactamente una vez en la muestra.
La reposición de los elementos podría distorsionar los resultados.
\(N/n\): Depende de cada estudio, requiere investigación.
El muestreo iid (independiente e idénticamente distribuido) es fundamental para aplicar correctamente la fórmula de tamaño de muestra. Las principales condiciones son:
Fórmula:
\[ n = \frac{{Z^2 \cdot \sigma^2}}{{E^2}} \]
Donde: - \(n\) es el tamaño de la muestra. - \(Z\) es el valor crítico de la distribución normal estándar, asociado con el nivel de confianza deseado. - \(\sigma\) es la desviación estándar de la población o su estimador. - \(E\) es el margen de error deseado (nivel de significancia \(\alpha\)). - Con o sin remplazo.
Si el nivel de confianza del 90%, el
\[ E = \alpha = 1-.9 =.1 \]
Se busca en la tabla el valor crítico para 90%
\[ n = \frac{{(1.2815)^2 \cdot (8)^2}}{{(.1)^2}} \] Donde: \[ n = 10511.2 \sim 10512 \]
Para estudiar la imagen de los diferentes políticos, se pide a los encuestados que los evalúen en una escala (continúa) de 0 a 10 puntos. - Si la desviación típica de esta variable es de 1.5 puntos
¿Cuántos casos se necesitan para alcanzar un error máximo de 0.05 puntos?
\[ n = \frac{{1.96^2 \cdot 1.5^2}}{{0.05^2}} \]
Donde: \[ n = 2434.99 \sim 2435 \]
\[ n = \frac{{Z^2 \cdot p \cdot (1-p)}}{{E^2}} \]
Donde: - \(n\) es el Tamaño de muestra necesario.
\(p\) es la proporción estimada (constante).
\(Z\) es el valor crítico de la distribución normal.
\(E\) es el margen de error deseado.
\(X\) es binomial (éxito o fracaso).
Con o sin remplazo.
Substituyendo:
\[ n = \frac{{1.96^2 \cdot 0.6 \cdot (1-0.6)}}{{0.05^2}} \]
La muestra:
\[ n = 260 \]
## [1] 259.7322
Substituyendo:
\[ n = \frac{{1.2815^2 \cdot 0.4 \cdot (1-0.4)}}{{0.1^2}} \]
La muestra:
\[ n = 40 \]
## [1] 1.281552
## [1] 39.41699
Usando la fórmula: \[ n = \left(\frac{Z}{2E}\right)^2 \]
\(Max(\sigma) = \sqrt{n \cdot p \cdot (1-p)}=0.5\)
Suele dar un tamaño de muestra mayor.
Calculamos el tamaño de muestra: \[ n = \left(\frac{1.2816}{2 \times 0.05}\right)^2 \] \[ n = 42 \]
Calculamos el tamaño de muestra: \[ n = \left(\frac{1.6448}{2 \times 0.05}\right)^2 \] \[ n = 271 \]
\[ n = \frac{N}{1+N(e)^2} \]
Se quiere estimar la proporción de personas que consumen pasta en una ciudad con una población de 500.000 habitantes, con un nivel de precisión del 5% y un nivel de confianza del 95%.
\[ n = \frac{500000}{1+500000(0.05)^2} \] \[ n = 400 \]
## [1] 399.6803
## [1] 400
## Versión: 07/02/2024
Smith, G. (2015). Essential statistics, regression, and econometrics.
Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.
Hernández-Sampieri, R., Fernández-Collado, C., & Baptista-Lucio, P. (2014). Metodología de la investigación (6a ed.). McGraw-Hill.
Cochran’s sample size formula p variable meaning and intuition