2024-04-10

Tema 3: Análisis de Varianza.

ANOVA bidireccional (Two-Way ANOVA)

3.4 ANOVA bidireccional, Introducción

ANOVA de dos vías es una prueba estadística que se utiliza para analizar la diferencia entre las medias de dos grupos. Se utiliza para estimar cómo cambia la media de una variable cuantitativa según los niveles de dos variables categóricas. Por ejemplo, una empresa podría utilizar ANOVA bidireccional para comparar la productividad de los trabajadores en función de dos variables independientes como el salario y el conjunto de habilidades.

3.5 ANOVA bidireccional, Suposiciones

  1. Normalización: La variable de respuesta se distribuye normalmente para cada población.
  2. Homogeneidad: La varianza de la variable de respuesta es la misma para todas las poblaciones.
  3. Independencia: Las observaciones deben ser independientes.

3.6 ANOVA bidireccional, Limitaciones

  • La ANOVA de dos vías tiene dos variables independientes (explican).
  • El resultado de la prueba no indica dirección, es decir, no se sabe cual variable que explica la variable dependiente. - El supuesto de normalidad puede no cumplirse en muestras pequeñas.
  • El supuesto de homogeneidad de la varianza implica que la población es relativamente estable.

Ejemplo (1/1)

  • Contexto del Ejercicio:

Se desea analizar el efecto de dos factores, el tipo de programa de preparación (Factor A) y el colegio de procedencia (Factor B), en las puntuaciones obtenidas por los estudiantes en un examen estandarizado (GMAT). Resuelve con un nivel de confianza del \(95\%\).

Ejemplo (2/1)

  • Factor A: Preparation Program.
  • Factor B: College.
Business Engineering Arts and Sciences
Three-hour review 500, 580 540, 460 480, 400
One-day program 460, 540 560, 620 420, 480
10-week course 560, 600 600, 580 480, 410

Hipótesis de la ANOVA bidireccional (Factor A)

  1. Efecto principal (factor A): ¿Los programas de preparación difieren en términos de efecto en las puntuaciones GMAT?
    • Hipótesis Nula (H0): No hay diferencia en las medias de las puntuaciones GMAT entre los diferentes niveles del programa de preparación.

    • Hipótesis Alternativa (HA): Al menos una media de las puntuaciones GMAT de un programa de preparación es diferente de las demás.

Hipótesis de la ANOVA bidireccional (Factor A)

  • Matemáticamente:
    • \[H0_A: \mu_{1.} = \mu_{2.} = \mu_{3.}\]
    • \[HA_A: \text{ Al menos un } \mu_{i.} \text{ es diferente. }\]

Hipótesis de la ANOVA bidireccional (Factor B)

  1. Efecto principal (factor B): ¿Las universidades de pregrado difieren en términos de efecto en las puntuaciones GMAT?
    • Hipótesis Nula (H0): No hay diferencia en las medias de las puntuaciones GMAT entre las diferentes universidades.
    • Hipótesis Alternativa (HA): Al menos una media de las puntuaciones GMAT de una universidad es diferente de las demás.

Hipótesis de la ANOVA bidireccional (Factor B)

  • Matemáticamente:
    • \[H0_B: \mu_{.1} = \mu_{.2} = \mu_{.3}\]
    • \[HA_B: \text{ Al menos un } \mu_{.j} \text{ es diferente. }\]

Hipótesis de la ANOVA bidireccional (Interacción A y B)

  1. Efecto de interacción (factores A y B): ¿Los estudiantes de algunas universidades lo hacen mejor en un tipo de programa de preparación mientras que otros lo hacen mejor en un tipo de programa de preparación diferente?
    • Hipótesis Nula (H0): No hay interacción entre el programa de preparación y la universidad. El efecto del programa de preparación en las puntuaciones GMAT es el mismo en cada universidad.
    • Hipótesis Alternativa (HA): Hay una interacción entre el programa de preparación y la universidad. El efecto del programa de preparación en las puntuaciones GMAT no es el mismo en cada universidad.

Hipótesis de la ANOVA bidireccional (Interacción A y B)

  • Matemáticamente:
    • \[H0_{AB}: \mu_{ij} - \mu_{i.} - \mu_{.j} + \mu = 0\] para todo \(i\), \(j\).
    • \[HA_{AB}: \mu_{ij} - \mu_{i.} - \mu_{.j} + \mu \neq 0\] para al menos un par \(i\), \(j\).

ANOVA bidireccional, Notación.

Notación:

  • \(a\): Número de niveles del factor \(A\).
  • \(b\): Número de niveles del factor \(B\).
  • \(n\): Número de observaciones por combinación de factores.
  • \(y_{ijk}\): Observación \(k\) del nivel \(i\) del factor \(A\) y nivel \(j\) del factor \(B\).
  • \(\bar{x}_{i.}\): Media de las observaciones del nivel \(i\) del factor \(A\).
  • \(\bar{x}_{.j}\): Media de las observaciones del nivel \(j\) del factor \(B\).
  • \(\bar{x}_{ij.}\): Media de las observaciones de la combinación de niveles \(i\) del factor \(A\) y \(j\) del factor \(B\).
  • \(\bar{\bar{x}}\): Media general de todas las observaciones.

Tabla de ANOVA bidireccional:

Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Valor F Valor p
Factor A SSA \(a - 1\) \(MSA=\frac{SSA}{(a - 1)}\) \(F_A=\frac{MSA}{MSE}\) \(p_A\)
Factor B SSB \(b - 1\) \(MSB=\frac{SSB}{(b - 1)}\) \(F_B=\frac{MSB}{MSE}\) \(p_B\)
Interacción AB SSAB \((a - 1)(b - 1)\) \(MSAB=\frac{SSAB}{(a - 1)(b - 1)}\) \(F_{AB}=\frac{MSAB}{MSE}\) \(p_{AB}\)
Error SSE \(ab(n - 1)\) \(MSE=\frac{SSE}{ab(n - 1)}\)
Total SST \(abn - 1\)

ANOVA bidireccional, Media general de la muestra

  • Paso 1: La media muestral general (\(\bar{\bar{x}}\)) se calcula como el promedio de todas las observaciones de todas las combinaciones de niveles de los factores A y B.

\[ \bar{\bar{x}} = \frac{1}{abn} \sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{n} x_{ijk} \]

Donde: - \(a\) es el número de niveles del Factor A. - \(b\) es el número de niveles del Factor B. - \(n\) es el número de réplicas por combinación de niveles de los factores. - \(x_{ijk}\) es la observación correspondiente al nivel \(i\) del Factor A, nivel \(j\) del Factor B y la réplica \(k\).

ANOVA bidireccional, Media general de la muestra

La media muestral general \(\bar{\bar{x}}\):

(500 + 580 + 540 + 460 + 480 + 
    400 + 460 + 540 + 560 + 620 
  + 420 + 480 + 560 + 600 + 600 
  + 580 + 480 + 410)/(3*3*2)
## [1] 515

ANOVA bidireccional, Suma de Cuadrados Total

  • Paso 2: Suma del Cuadrado Total: \[SST = \sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{n} (x_{ijk} - \bar{\bar{x}})^2\]

ANOVA bidireccional, Suma de Cuadrados Total

  • La Suma del Cuadrado Total \(SST\):
(500 - 515)^2 + (580 - 515)^2 + (540 - 515)^2 + 
  (460 - 515)^2 + (480 - 515)^2 + (400 - 515)^2 + 
  (460 - 515)^2 + (540 - 515)^2 + (560 - 515)^2 + 
  (620 - 515)^2 + (420 - 515)^2 + (480 - 515)^2 + 
  (560 - 515)^2 + (600 - 515)^2 + (600 - 515)^2 + 
  (580 - 515)^2 + (480 - 515)^2 + (410 - 515)^2
## [1] 82450

ANOVA bidireccional, Suma de Cuadrados Factor A

  • Paso 3: Suma del Cuadrado del Factor A:

\[SSA = a \times n \sum_{i=1}^{a}( \bar{x}_{i.} - \bar{\bar{x}})^2\] Donde: \[ \bar{x}_{i.} = \frac{1}{a \times n} \sum_{j=1}^{b} \sum_{k=1}^{n} x_{ijk} \] representa la media de las observaciones para el \(i\)-ésimo nivel del Factor A en todos los niveles del Factor B.

ANOVA bidireccional, Suma de Cuadrados Factor A

  • Paso 3a: Cómputo de las, \(\bar{x}_{i.}\), medias del Factor A:
(500 + 580 + 540 + 460 + 480 + 400) / (3*2)
## [1] 493.3333
(460 + 540 + 560 + 620 + 420 + 480) / (3*2)
## [1] 513.3333
(560 + 600 + 600 + 580 + 480 + 410) / (3*2)
## [1] 538.3333

ANOVA bidireccional, Suma de Cuadrados Factor A

  • Paso 3b: cómputo de la Suma del Cuadrado del Factor A \(SSA\):
3*2*((493.3333-515)^2 + (513.3333-515)^2 + (538.3333-515)^2)
## [1] 6100

ANOVA bidireccional, Suma de Cuadrados de los Factores

  • Paso 4: Suma del Cuadrado del Factor B: \[SSB = b \times n \sum_{j=1}^{b}( \bar{x}_{.j} - \bar{\bar{x}})^2\]

Donde:

\[ \bar{x}_{.j} = \frac{1}{b \times n} \sum_{i=1}^{a} \sum_{k=1}^{n} x_{ijk} \]

representa la media de las observaciones para el jésimo nivel del Factor B en todos los niveles del Factor A.

ANOVA bidireccional, Suma de Cuadrados Factor B

  • Paso 4a: Cómputo de las, \(\bar{x}_{.j}\), medias del Factor B:
(500 + 580 + 460 + 540 + 560 + 600) / (3*2)
## [1] 540
(540 + 460 + 560 + 620 + 600 + 580) / (3*2)
## [1] 560
(480 + 400 + 420 + 480 + 480 + 410) / (3*2)
## [1] 445

ANOVA bidireccional, Suma de Cuadrados Factor B

  • Paso 4b: cómputo de la Suma del Cuadrado del Factor A \(SSB\):
3*2*((540-515)^2 + (560-515)^2 + (445-515)^2)
## [1] 45300

ANOVA bidireccional, Suma del Cuadrado de la interacción entre A y B:

  • Paso 5: Suma del Cuadrado de la interacción entre A y B: \[ SSAB = n\sum_{i=1}^{a}\sum_{j=1}^{b}( \bar{x}_{ij}-\bar{x}_{i.}-\bar{x}_{.j}+\bar{\bar{x}})^2\] Donde: \[ \bar{x}_{ij} = \frac{1}{n} \sum_{k=1}^{n} x_{ijk} \] representa la media las observaciones para el iésimo nivel del Factor A y el jésimo nivel del Factor B.

ANOVA bidireccional, Suma del Cuadrado de la interacción entre A y B:

  • Paso 5a: Cómputo de las, \(\bar{x}_{ij}\), medias cada par de Factor A y B:
(500 + 580) / 2 # x11: Three-hour review - Business
(540 + 460) / 2 # x12: Three-hour review - Engineering
(480 + 400) / 2 # x13: Three-hour review - Arts and Sciences
(460 + 540) / 2 # x21: One-day program - Business
(560 + 620) / 2 # x22: One-day program - Engineering
(420 + 480) / 2 # x23: One-day program - Arts and Sciences
(560 + 600) / 2 # x31: 10-week course - Business
(600 + 580) / 2 # x32: 10-week course - Engineering
(480 + 410) / 2 # x33: 10-week course - Arts and Sciences
## [1] 540 500 440 500 590 450 580 590 445

ANOVA bidireccional, Suma del Cuadrado de la interacción entre A y B:

  • Paso 5B: Cuadrado de la interacción entre A y B \(SSAB\):
 2 * (
  (540 - 493.3333 - 540 + 515)^2 +
  (500 - 493.3333 - 560 + 515)^2 +
  (440 - 493.3333 - 445 + 515)^2 +
  (500 - 513.3333 - 540 + 515)^2 +
  (590 - 513.3333 - 560 + 515)^2 +
  (450 - 513.3333 - 445 + 515)^2 +
  (580 - 538.3333 - 540 + 515)^2 +
  (590 - 538.3333 - 560 + 515)^2 +
  (445 - 538.3333 - 445 + 515)^2
)
## [1] 11200

ANOVA bidireccional, Suma del Cuadrado del Error:

  • Paso 6: Hacer el cómputo de la suma del cuadrado del error:

\[ SSE = SST - SSA - SSB - SSAB\]

82450 - 6100 - 45300 - 11200
## [1] 19850

ANOVA bidireccional, Cómputo de la tabla de ANOVA bidireccional:

Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Valor F Valor p
Factor A \(6100\) \(3 - 1 = 2\) \(3050\) \(1.38\) \(p_A\)
Factor B \(45300\) \(3 - 1 = 2\) \(22650\) \(10.27\) \(p_B\)
Interaction AB \(11200\) \((3 - 1)(3 - 1) = 4\) \(2800\) \(1.27\) \(p_{AB}\)
Error \(19850\) \(3*3*(2 - 1) = 9\) \(2205.56\)
Total \(82450\) \(3*3*2 - 1 = 17\)

ANOVA bidireccional, Cómputo valores críticos de \(F\)

  • En R, para 95% de nivel de confianza para el Factor A:
qf(0.95, 2, 9, lower.tail = T)
## [1] 4.256495
  • En R, para 95% de nivel de confianza para el Factor B:
qf(0.95, 2, 9)
## [1] 4.256495

ANOVA bidireccional, Cómputo valores críticos de \(F\)

  • En R, para 95% de nivel de confianza para la interacción del Factor A y B:
qf(0.95, 4, 9)
## [1] 3.633089
  • En EXCEL se usa:
=DISTR.F.INV(.05,4,9)

ANOVA bidireccional, Conclusión.

  • Fallamos en rechazar \(H0_A\), debido a \(1.38 < F_{(df_1=2, df_2=9)}= 4.2565\). Es decir, no hay evidencia de la diferencia entre los programas de preparación en las puntuaciones GMAT.

  • Rechazamos \(H0_B\), debido a que \(10.27 > F_{(df_1=2, df_2=9)}= 4.2565\). Es decir, hay evidencia de que si hay una diferencia entre los diferentes programas educativos en el score del GMAT.

  • Fallamos en rechazar \(H0_{AB}\), debido a \(1.27 < F_{(df_1=2, df_2=9)}= 3.633\). Es decir, no hay evidencia de la interacción etrne los programas de preparación y los diferentes programas educativos en las puntuaciones GMAT.

ANOVA bidireccional, En R

  • Paso 1: Generar vectores con datos:
Program = factor(rep(
    c("Three-hour review", "One-day program", "10-week course"),
    each = 6
  ))
College = factor(rep(
    c("Business", "Engineering", "Arts and Sciences"),
    each = 2,
    times = 3
  ))
Score = c(500, 580, 540, 
            460, 480, 400, 
            460, 540, 560,
            620, 420, 480,
            560, 600, 600, 
            580, 480, 410)

ANOVA bidireccional, En R

  • Paso 2: Crear un data.frame y cargar el paquete car.
# Create the data frame
data <- data.frame(Program, College, Score)
  
# Load necessary library
library(car)
## Loading required package: carData

ANOVA bidireccional, En R

  • Paso 3: Correr el modelo.
# Perform the two-way ANOVA
result <- aov(Score ~ Program * College, data = data)

# Print the ANOVA table
summary(result)
##                 Df Sum Sq Mean Sq F value  Pr(>F)   
## Program          2   6100    3050   1.383 0.29944   
## College          2  45300   22650  10.270 0.00476 **
## Program:College  4  11200    2800   1.270 0.35033   
## Residuals        9  19850    2206                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANOVA bidireccional, En Excel

Organiza tus datos: “Excel requiere que tus datos estén organizados de una manera específica para realizar un ANOVA de dos vías. Necesitarás una fila para cada repetición por nivel de uno de los factores (A) y una columna por cada nivel del segundo factor (B).”

Bajar los datos

ANOVA bidireccional, En Excel

Herramientas de análisis: “Para realizar un ANOVA de dos vías, necesitarás tener instalado el complemento de Herramientas de Análisis. Puedes verificar si ya lo tienes yendo a la pestaña ‘Datos’ y buscando ‘Análisis de datos’ en el extremo derecho. Si no lo ves, tendrás que instalarlo. Para hacerlo, ve a ‘Archivo’ -> ‘Opciones’ -> ‘Complementos’. En el menú desplegable ‘Administrar’, selecciona ‘Complementos de Excel’ y haz clic en ‘Ir…’. Luego, marca la casilla ‘Herramientas de análisis’ y haz clic en ‘Aceptar’.”

ANOVA bidireccional, En Excel

Realiza el ANOVA de dos vías: “Ve a la pestaña ‘Datos’ y selecciona ‘Análisis de datos’. Desplázate hacia abajo y selecciona ‘Análisis de varianza de dos factores con varias muestras por grupo’. Haz clic en ‘Aceptar’. En el cuadro de diálogo que aparece, selecciona tus datos (incluyendo las etiquetas de las columnas y filas) para el ‘Rango de entrada’. Introduce el número de replicaciones (esto es, el número de observaciones por combinación de factores, para el ejemplo escribe ‘2’). Haz clic en ‘Aceptar’.”

ANOVA bidireccional, En Excel

Revisión

## Versión: 26/04/2024

Bibliografía

Bibliografía

  • Smith, G. (2015). Essential statistics, regression, and econometrics.

  • Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.

  • Anderson, Sweeney & Williams, (2010). Statistics for Business and Economics.