2024-04-10
ANOVA de dos vías es una prueba estadística que se utiliza para analizar la diferencia entre las medias de dos grupos. Se utiliza para estimar cómo cambia la media de una variable cuantitativa según los niveles de dos variables categóricas. Por ejemplo, una empresa podría utilizar ANOVA bidireccional para comparar la productividad de los trabajadores en función de dos variables independientes como el salario y el conjunto de habilidades.
Se desea analizar el efecto de dos factores, el tipo de programa de preparación (Factor A) y el colegio de procedencia (Factor B), en las puntuaciones obtenidas por los estudiantes en un examen estandarizado (GMAT). Resuelve con un nivel de confianza del \(95\%\).
Business | Engineering | Arts and Sciences | |
---|---|---|---|
Three-hour review | 500, 580 | 540, 460 | 480, 400 |
One-day program | 460, 540 | 560, 620 | 420, 480 |
10-week course | 560, 600 | 600, 580 | 480, 410 |
Hipótesis Nula (H0): No hay diferencia en las medias de las puntuaciones GMAT entre los diferentes niveles del programa de preparación.
Hipótesis Alternativa (HA): Al menos una media de las puntuaciones GMAT de un programa de preparación es diferente de las demás.
Notación:
Fuente de Variación | Suma de Cuadrados | Grados de Libertad | Cuadrado Medio | Valor F | Valor p |
---|---|---|---|---|---|
Factor A | SSA | \(a - 1\) | \(MSA=\frac{SSA}{(a - 1)}\) | \(F_A=\frac{MSA}{MSE}\) | \(p_A\) |
Factor B | SSB | \(b - 1\) | \(MSB=\frac{SSB}{(b - 1)}\) | \(F_B=\frac{MSB}{MSE}\) | \(p_B\) |
Interacción AB | SSAB | \((a - 1)(b - 1)\) | \(MSAB=\frac{SSAB}{(a - 1)(b - 1)}\) | \(F_{AB}=\frac{MSAB}{MSE}\) | \(p_{AB}\) |
Error | SSE | \(ab(n - 1)\) | \(MSE=\frac{SSE}{ab(n - 1)}\) | ||
Total | SST | \(abn - 1\) |
\[ \bar{\bar{x}} = \frac{1}{abn} \sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{n} x_{ijk} \]
Donde: - \(a\) es el número de niveles del Factor A. - \(b\) es el número de niveles del Factor B. - \(n\) es el número de réplicas por combinación de niveles de los factores. - \(x_{ijk}\) es la observación correspondiente al nivel \(i\) del Factor A, nivel \(j\) del Factor B y la réplica \(k\).
La media muestral general \(\bar{\bar{x}}\):
(500 + 580 + 540 + 460 + 480 + 400 + 460 + 540 + 560 + 620 + 420 + 480 + 560 + 600 + 600 + 580 + 480 + 410)/(3*3*2)
## [1] 515
(500 - 515)^2 + (580 - 515)^2 + (540 - 515)^2 + (460 - 515)^2 + (480 - 515)^2 + (400 - 515)^2 + (460 - 515)^2 + (540 - 515)^2 + (560 - 515)^2 + (620 - 515)^2 + (420 - 515)^2 + (480 - 515)^2 + (560 - 515)^2 + (600 - 515)^2 + (600 - 515)^2 + (580 - 515)^2 + (480 - 515)^2 + (410 - 515)^2
## [1] 82450
\[SSA = a \times n \sum_{i=1}^{a}( \bar{x}_{i.} - \bar{\bar{x}})^2\] Donde: \[ \bar{x}_{i.} = \frac{1}{a \times n} \sum_{j=1}^{b} \sum_{k=1}^{n} x_{ijk} \] representa la media de las observaciones para el \(i\)-ésimo nivel del Factor A en todos los niveles del Factor B.
(500 + 580 + 540 + 460 + 480 + 400) / (3*2)
## [1] 493.3333
(460 + 540 + 560 + 620 + 420 + 480) / (3*2)
## [1] 513.3333
(560 + 600 + 600 + 580 + 480 + 410) / (3*2)
## [1] 538.3333
3*2*((493.3333-515)^2 + (513.3333-515)^2 + (538.3333-515)^2)
## [1] 6100
Donde:
\[ \bar{x}_{.j} = \frac{1}{b \times n} \sum_{i=1}^{a} \sum_{k=1}^{n} x_{ijk} \]
representa la media de las observaciones para el j
ésimo nivel del Factor B en todos los niveles del Factor A.
(500 + 580 + 460 + 540 + 560 + 600) / (3*2)
## [1] 540
(540 + 460 + 560 + 620 + 600 + 580) / (3*2)
## [1] 560
(480 + 400 + 420 + 480 + 480 + 410) / (3*2)
## [1] 445
3*2*((540-515)^2 + (560-515)^2 + (445-515)^2)
## [1] 45300
i
ésimo nivel del Factor A y el j
ésimo nivel del Factor B.(500 + 580) / 2 # x11: Three-hour review - Business (540 + 460) / 2 # x12: Three-hour review - Engineering (480 + 400) / 2 # x13: Three-hour review - Arts and Sciences (460 + 540) / 2 # x21: One-day program - Business (560 + 620) / 2 # x22: One-day program - Engineering (420 + 480) / 2 # x23: One-day program - Arts and Sciences (560 + 600) / 2 # x31: 10-week course - Business (600 + 580) / 2 # x32: 10-week course - Engineering (480 + 410) / 2 # x33: 10-week course - Arts and Sciences
## [1] 540 500 440 500 590 450 580 590 445
2 * ( (540 - 493.3333 - 540 + 515)^2 + (500 - 493.3333 - 560 + 515)^2 + (440 - 493.3333 - 445 + 515)^2 + (500 - 513.3333 - 540 + 515)^2 + (590 - 513.3333 - 560 + 515)^2 + (450 - 513.3333 - 445 + 515)^2 + (580 - 538.3333 - 540 + 515)^2 + (590 - 538.3333 - 560 + 515)^2 + (445 - 538.3333 - 445 + 515)^2 )
## [1] 11200
\[ SSE = SST - SSA - SSB - SSAB\]
82450 - 6100 - 45300 - 11200
## [1] 19850
Fuente de Variación | Suma de Cuadrados | Grados de Libertad | Cuadrado Medio | Valor F | Valor p |
---|---|---|---|---|---|
Factor A | \(6100\) | \(3 - 1 = 2\) | \(3050\) | \(1.38\) | \(p_A\) |
Factor B | \(45300\) | \(3 - 1 = 2\) | \(22650\) | \(10.27\) | \(p_B\) |
Interaction AB | \(11200\) | \((3 - 1)(3 - 1) = 4\) | \(2800\) | \(1.27\) | \(p_{AB}\) |
Error | \(19850\) | \(3*3*(2 - 1) = 9\) | \(2205.56\) | ||
Total | \(82450\) | \(3*3*2 - 1 = 17\) |
qf(0.95, 2, 9, lower.tail = T)
## [1] 4.256495
qf(0.95, 2, 9)
## [1] 4.256495
qf(0.95, 4, 9)
## [1] 3.633089
=DISTR.F.INV(.05,4,9)
Fallamos en rechazar \(H0_A\), debido a \(1.38 < F_{(df_1=2, df_2=9)}= 4.2565\). Es decir, no hay evidencia de la diferencia entre los programas de preparación en las puntuaciones GMAT.
Rechazamos \(H0_B\), debido a que \(10.27 > F_{(df_1=2, df_2=9)}= 4.2565\). Es decir, hay evidencia de que si hay una diferencia entre los diferentes programas educativos en el score del GMAT.
Fallamos en rechazar \(H0_{AB}\), debido a \(1.27 < F_{(df_1=2, df_2=9)}= 3.633\). Es decir, no hay evidencia de la interacción etrne los programas de preparación y los diferentes programas educativos en las puntuaciones GMAT.
Program = factor(rep( c("Three-hour review", "One-day program", "10-week course"), each = 6 )) College = factor(rep( c("Business", "Engineering", "Arts and Sciences"), each = 2, times = 3 )) Score = c(500, 580, 540, 460, 480, 400, 460, 540, 560, 620, 420, 480, 560, 600, 600, 580, 480, 410)
# Create the data frame data <- data.frame(Program, College, Score) # Load necessary library library(car)
## Loading required package: carData
# Perform the two-way ANOVA result <- aov(Score ~ Program * College, data = data) # Print the ANOVA table summary(result)
## Df Sum Sq Mean Sq F value Pr(>F) ## Program 2 6100 3050 1.383 0.29944 ## College 2 45300 22650 10.270 0.00476 ** ## Program:College 4 11200 2800 1.270 0.35033 ## Residuals 9 19850 2206 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Organiza tus datos: “Excel requiere que tus datos estén organizados de una manera específica para realizar un ANOVA de dos vías. Necesitarás una fila para cada repetición por nivel de uno de los factores (A) y una columna por cada nivel del segundo factor (B).”
Herramientas de análisis: “Para realizar un ANOVA de dos vías, necesitarás tener instalado el complemento de Herramientas de Análisis. Puedes verificar si ya lo tienes yendo a la pestaña ‘Datos’ y buscando ‘Análisis de datos’ en el extremo derecho. Si no lo ves, tendrás que instalarlo. Para hacerlo, ve a ‘Archivo’ -> ‘Opciones’ -> ‘Complementos’. En el menú desplegable ‘Administrar’, selecciona ‘Complementos de Excel’ y haz clic en ‘Ir…’. Luego, marca la casilla ‘Herramientas de análisis’ y haz clic en ‘Aceptar’.”
Realiza el ANOVA de dos vías: “Ve a la pestaña ‘Datos’ y selecciona ‘Análisis de datos’. Desplázate hacia abajo y selecciona ‘Análisis de varianza de dos factores con varias muestras por grupo’. Haz clic en ‘Aceptar’. En el cuadro de diálogo que aparece, selecciona tus datos (incluyendo las etiquetas de las columnas y filas) para el ‘Rango de entrada’. Introduce el número de replicaciones (esto es, el número de observaciones por combinación de factores, para el ejemplo escribe ‘2’). Haz clic en ‘Aceptar’.”
## Versión: 26/04/2024
Smith, G. (2015). Essential statistics, regression, and econometrics.
Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.
Anderson, Sweeney & Williams, (2010). Statistics for Business and Economics.