2024-04-15
\[ Cor(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X) * Var(Y)}} \]
Y a covarianza entre dos variables, X e Y, se puede definir como:
\[ Cov(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X}) * (Y_i - \bar{Y}) \]
La covarianza mide cómo los cambios en X están asociados con los cambios en Y. La varianza es una medida de cuánto varía una variable.
La correlación normaliza la covarianza utilizando la raíz cuadrada del producto de las varianzas de X e Y. Esto hace que la correlación varíe entre -1 y 1, lo que facilita su interpretación.
Ejemplo: El Profesor Wooldrich, tiene disponible un dataset llamado bwght
, que muetra determinantes del peso de los recien nacidos en los años 80´s.
‘bwght’ : peso al nacer (gramos)
‘cigprice’: precio de los cigarrillos (USD)
‘othrce’: Nivel educativo de la madre (años)
‘race’: Raza de la madre (1=Blanco, 2=Negro, 3=Otro)
‘cigs’: Cigarrolos fumados al día por la madre durante emabarazo.
‘faminc’ : Ingreso de la familia (USD)
bwght | cigprice | white | cigs | faminc | |
---|---|---|---|---|---|
bwght | 1.0000000 | 0.0491879 | 0.1269714 | -0.1507618 | 0.1089368 |
cigprice | 0.0491879 | 1.0000000 | 0.1105036 | 0.0097042 | 0.0954558 |
white | 0.1269714 | 0.1105036 | 1.0000000 | -0.0184725 | 0.3045564 |
cigs | -0.1507618 | 0.0097042 | -0.0184725 | 1.0000000 | -0.1730449 |
faminc | 0.1089368 | 0.0954558 | 0.3045564 | -0.1730449 | 1.0000000 |
OLS estima los coeficientes (\(\hat{\beta}\)) que minimizan la suma de residuos cuadrados.
Métodos de estimación:
\(n \geq k+1\): \(n\) observaciones para estimar \(k\) parámetros (coeficientes).
El número de observaciones es al menos igual al número de parámetros a estimar incluyendo el intercepto.
Redundancia: \(Var(x) \neq 0\).
OLS tiene una solución única y es el mejor estimador lineal insesgado (BLUE) cuando los supuestos de Gauss-Markov se cumplen.
BLUE = Best Lienar Unbiased Estimator. Es decir si los supuestos se cumplen, OLS produce los mejores estimadores lineales sin sesgo de los parámetros beta.
El supuesto de linealidad establece que la relación entre la variable dependiente y las variables independientes es lineal en el parámetro de interés \(\beta_k\). En otras palabras, se espera que la variable dependiente cambie en una cantidad constante por cada cambio unitario en una variable independiente, manteniendo constantes las demás variables independientes.
Matemáticamente, esto se puede expresar como:
\[ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_kx_k + u \] ## Tema 4.12 Supuestos de Gauss-Markov OLS: Linealidad
Por ejemplo, en economía, la curva de Laffer expresa relación parabólica entre la tasa de impuestos y los ingresos fiscales. En términos matemáticos, esto se puede expresar como:
\[\text{Ingresos fiscales} = \beta_0 -\beta_1 \cdot (\text{Tasa de impuestos} - \beta_3)^2 + u\]
Al expandir la ecuación, podemos notar explíciamente: \[\text{Ingresos fiscales} = \beta_0 -\beta_1\text{Tasa de impuestos}^2 + \\ 2\beta_1\beta_3\text{Tasa de impuestos} - \beta_1\beta_3^2 + u\]
\[hombres=\begin{pmatrix} 0\\ 1\\ 0 \end{pmatrix}= \alpha_1 * mujeres + \alpha_2 * intercepto \\ = (-1) \begin{pmatrix} 1\\ 0\\ 1 \end{pmatrix} + (1) \begin{pmatrix} 1\\ 1\\ 1 \end{pmatrix}=\begin{pmatrix} -1 + 1\\ 0 + 1\\ -1 + 1 \end{pmatrix}\]
Media condicional cero de \(u_i\) dada \(x_i\): \(E[u|x]=0\)
Si \(E[u|x]=0\), implica que los cambios en alguna de las variables explicativas no generan directamente cambios en el error \(u\).
Esto es una forma de decir que el modelo está bien especificado y no contiene variables omitidas, causalidad inversa o errores de medición. En otras palabras, la variación del error es completamente aleatoria e independiente de las variables independientes.
La exogeneidad se refiere a la situación en la que las variables independientes no están correlacionadas con los errores. Por ejemplo, en un estudio que examina la relación entre la educación y los ingresos, si la educación es una variable exógena, entonces cualquier factor no observado (errores) que afecte los ingresos no debería estar correlacionado con la educación.
Por otro lado si las variable independientes no son exogenas debido a que contiene variables omitidas, causalidad inversa o errores de medición, decimos que el modelo sufre de endogeneidad.
Las variables omitidas ocurren cuando una variable relevante no se incluye en el modelo. Por ejemplo, si estás estudiando el efecto del tiempo de estudio en las calificaciones de los exámenes, pero no tomas en cuenta la inteligencia del estudiante, puedes tener una variable omitida. La inteligencia puede estar correlacionada tanto con el tiempo de estudio como con las calificaciones, lo que puede sesgar tus resultados.
Considera el modelo de regresión:
\[ \text{ingreso} = b0 + b1*\text{educacion} + u \]
Supongamos que hay otra variable, habilidad
, que también afecta al ingreso pero no está incluida en el modelo. La habilidad
puede estar correlacionada con la educacion
.
Dado que la habilidad
no está en el modelo, su efecto en el ingreso se incluirá en el término de error u
. Esto significa que ahora hay una correlación entre educacion
y u
, lo que implica que el modelo sufre de endogeneidad. La endogeneidad viola el supuesto de que \(E[u|x]=0\).
La causalidad inversa se refiere a la situación en la que la variable dependiente causa cambios en la variable independiente. Por ejemplo, podrías pensar que la felicidad causa un mayor ingreso porque las personas felices son más productivas. Sin embargo, también podría ser que un mayor ingreso cause felicidad. Este es un ejemplo de causalidad inversa.
El error de medición ocurre cuando la variable independiente está medida con error. Por ejemplo, si estás utilizando una encuesta para medir la educación y algunos encuestados informan incorrectamente su nivel de educación, tienes un error de medición. Esto puede sesgar tus resultados porque estás utilizando información incorrecta para estimar tu modelo.
Otro ejemplo es expresar una variable dos unidades diferentes. Imagina que algunos encuestados reportaron su producción en kilogramos y otros en gramos.
El sesgo de un coeficiente en un modelo de regresión se refiere a la diferencia entre el valor esperado del coeficiente estimado y el verdadero valor del coeficiente (parámetro). En otras palabras, si el coeficiente estimado está sistemáticamente por encima o por debajo del verdadero valor del coeficiente, decimos que el estimador está sesgado.
La fórmula para el sesgo de un coeficiente \(\beta_k\) es:
\[ Sesgo(\hat{\beta_k}) = E[\hat{\beta_k}] - \beta_k \]
Aquí, \(E[\hat{\beta_k}]\) es el valor esperado del coeficiente estimado, y \(\beta_k\) es el verdadero valor del coeficiente.
La endogeneidad puede introducir sesgo en las estimaciones de los coeficientes de un modelo de regresión. Esto ocurre cuando una variable independiente está correlacionada con el término de error.
Supongamos que tenemos el siguiente modelo de regresión:
\[ y = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k + u \]
Debido al problema de engogeneidad, puede existir una variable(s) \(x_k\) correlacionada con \(u\), \(Cor(x,u) \neq 0\), entonces la estimación de \(\beta_k\) estará sesgada.
Supón que la variable \(x_1\) es endógena, y la estimación de \(\beta_1\) está sesgada. Matemáticamente utilizando las propiedades de las expectativas y la covarianza:
\[ E[\hat{\beta_1}] = \beta_1 + \frac{Cov(x, u)}{Var(x)} \]
Dado que \(Cov(x, u) \neq 0\) en el caso de la endogeneidad, esto implica que \(E[\hat{\beta_1}] \neq \beta_1\), lo que indica que el estimador está sesgado.
La homoscedasticidad es un supuesto en la regresión lineal que indica que la varianza de los errores es constante a través de todas las observaciones. Esto significa que el “esparcimiento” de los residuos alrededor de la línea de regresión es igual para todos los valores de las variables independientes.
bwght
, que muetra determinantes del peso de los recien nacidos en los años 80´s. Al inspecionar los residuales \(\hat{u}\) de la regresión \(\text{peso} = b0 + b1*\text{cig_por_día} + u\), se puede ver cláramente que la varianza del residual crece al incrementar el número de cigarrillos por día. Por lo que el supuesto de homocedasticidad no se cumple.En los procesos de aprendizaje, a medida que las personas adquieren más experiencia o educación, pueden mejorar en una tarea, lo que podría llevar a una mayor variabilidad en el rendimiento a medida que las personas aprenden y mejoran a ritmos diferentes. Esto puede resultar en heteroscedasticidad.
En las series temporales, la variabilidad de una variable puede cambiar con el tiempo. Por ejemplo, la variabilidad de los precios de las acciones puede aumentar durante los períodos de incertidumbre económica y disminuir durante los períodos de estabilidad económica. Esto puede resultar en heteroscedasticidad.
Si hay agrupaciones dentro de nuestros datos, como diferentes categorías o grupos, la variabilidad puede ser diferente entre estos grupos. Por ejemplo, si estamos modelando los ingresos de las personas y tenemos datos tanto de trabajadores a tiempo parcial como de tiempo completo, la variabilidad de los ingresos podría ser diferente entre estos dos grupos. Esto puede resultar en heteroscedasticidad.
Si hay evidencia de heteroscedasticidad, el efecto \(\beta_k\) de \(x_k\) en \(y\) no es confiable. ¿Por qué?
La fórmula para el error estándar de \(\beta_k\) es:
\[ SE(\beta_k) = \sqrt{Var(\beta_k)} \]
La \(Var(\beta_k)\) varianza del coeficiente \(\beta_k\), se calcula como:
\[ Var(\beta_k) = \frac{\sigma^2}{\sum (X_{ik} - \bar{X_k})^2} \]
\(\sigma^2\) es la varianza de los residuales, \(X_{ik}\) son los valores individuales de la k-ésima variable independiente, y \(\bar{X_k}\) es la media de la k-ésima variable independiente.
Si la varianza de los residuales, \(\sigma^2\), no es constante (heteroscedasticidad), entonces la varianza del coeficiente \(\beta_k\) y, por lo tanto, su error estándar, pueden estar mal calculados. Esto puede afectar nuestras inferencias estadísticas sobre el coeficiente \(\beta_k\).
Por ejemplo, considera la siguiente tabla de resultados de una regresión:
Estimate | Std. Error | t value | Pr(> | |
---|---|---|---|---|
(Intercept) | 7.338409 | 0.938392 | 7.820 | 1.04e-14 *** |
bwght | -0.044240 | 0.007792 | -5.678 | 1.66e-08 *** |
Aquí el \(t-value=\frac{Estimate}{Std. Error}=\frac{-0.044240}{0.007792}=-5.678\)
¿Puedes ver el problema?
Estimate
) por su error estándar (Std. Error
).Los errores aleatorios \(u_i\) y \(u_j\) se consideran independientes si y solo si su esperanza condicional conjunta dada las variables independientes x es igual a cero:
\[E[u_i u_j | x] = 0 \quad \text{para} \quad i \neq j\]
Esto significa que no hay correlación entre los errores de diferentes observaciones, incluso cuando se toma en cuenta el valor de las variables independientes.
Imaginemos que cada observación en nuestro conjunto de datos representa un experimento independiente. Recuerda, el experimento, es una realización de una variable aleatoria. Si los errores son independientes, esto significa que el resultado de un experimento (la observación) no tiene ningún efecto en el resultado de otro experimento (otra observación), incluso si ambos experimentos se realizan bajo las mismas condiciones (las mismas variables independientes). En otras palabras, los errores son como eventos aleatorios no relacionados que ocurren de forma independiente. Técnicamente esto de describe como \(u\) es independiente e identicamente distribuido (iid).
Consideremos un modelo de regresión que predice el peso al nacer de los bebés en función de la edad de la madre. Si el supuesto de independencia se cumple, esto significa que el error en la predicción del peso al nacer para un bebé no está relacionado con el error en la predicción del peso al nacer para otro bebé, incluso si ambos bebés nacen de madres con la misma edad. En otras palabras, la variabilidad aleatoria en el peso al nacer de los bebés no está relacionada con la variabilidad aleatoria en la edad de las madres.
El supuesto de muestra aleatoria es un supuesto fundamental en la regresión lineal. Este supuesto establece que cada observación en nuestro conjunto de datos es una muestra aleatoria de la población. En otras palabras, cada observación es independiente de las demás y no está influenciada por ninguna variable no observada.
Este supuesto es crucial para la estimación de los parámetros del modelo. Cuando ajustamos un modelo de regresión lineal, estamos tratando de estimar el efecto promedio de las variables independientes en la variable dependiente en la población. Para hacer esto, necesitamos que nuestra muestra sea representativa de la población. Por lo tanto, el supuesto de muestra aleatoria es crucial para obtener estimaciones imparciales y consistentes de beta.
Si la muestra es aleatoria, esto significa que cada observación tiene la misma probabilidad de ser seleccionada para la muestra, independientemente de los valores de sus variables. Esto nos ayuda a asegurar que nuestra muestra es representativa de la población.
Si la muestra no es aleatoria, entonces algunas observaciones pueden ser más propensas a ser seleccionadas para la muestra que otras, dependiendo de los valores de sus variables. Esto puede sesgar nuestras estimaciones de beta y hacer que sean menos representativas del efecto promedio en la población.
El supuesto de aleatoriedad de la muestra y el supuesto de independencia de los errores son dos supuestos estrechamente relacionados.
El supuesto de aleatoriedad de la muestra establece que cada observación en nuestro conjunto de datos es una muestra aleatoria de la población. Esto significa que cada observación es independiente de las demás y no está influenciada por ninguna variable no observada.
Si la muestra es aleatoria, entonces es razonable suponer que los errores también son independientes. Esto se debe a que si cada observación es una muestra aleatoria de la población, entonces no debería haber ninguna relación sistemática entre las observaciones que podría causar que los errores estén correlacionados.
Es importante tener en cuenta que incluso si la muestra es aleatoria, todavía podrían existir factores no observados, causalidad inversa y errores de mendición que causen que los errores estén correlacionados, violando así el supuesto de independencia de los errores.
Cuando los supuestos se cumplen, los estimadores OLS son los mejores estimadores lineales insesgados (BLUE, por sus siglas en inglés):
Best (Mejor): Entre todos los estimadores lineales insesgados, los estimadores OLS tienen la menor varianza.
Linear (Lineal): Los estimadores OLS son una combinación lineal de las variables.
Unbiased (Insesgado): En promedio, los estimadores OLS aciertan el verdadero valor del parámetro.
Estimator (Estimador): Los estimadores OLS son reglas que usamos para estimar los parámetros.
Las propiedades de un modelo OLS BLUE nos llevan a describir los estimadores con los conceptos de consistencia y eficiencia.
Consistencia: Un estimador es consistente si, a medida que el tamaño de la muestra se acerca al infinito, la estimación se acerca al verdadero valor del parámetro. En términos matemáticos, esto se puede expresar como:
\[\lim_{n \to \infty} P(|\hat{\beta} - \beta| > \epsilon) = 0 \text{, para cualquier } \epsilon > 0\] Esto significa que la probabilidad de que la diferencia entre el estimador y el verdadero valor del parámetro sea mayor que un valor pequeño \(\epsilon\) tiende a cero a medida que el tamaño de la muestra aumenta.
Eficiencia: Un estimador es eficiente si, de todos los estimadores insesgados, tiene la menor varianza. Un estimador eficiente utiliza de la mejor manera posible la información disponible en la muestra para estimar el parámetro. En términos matemáticos, esto se puede expresar como:
\[Var(\hat{\beta}) \leq Var(\tilde{\beta})\]
Esto significa que la varianza del estimador OLS es menor o igual a la varianza de cualquier otro estimador insesgado, \(\tilde{\beta}\).
Supuesto de Gauss-Markov | Impacto de la Violación | Indicador Afectado |
---|---|---|
Linealidad en parámetros | Sesgo | Consistencia |
Error medio cero | Sesgo | Consistencia |
Homoscedasticidad | Inferencia inválida | Eficiencia |
No autocorrelación | Inferencia inválida | Eficiencia |
No multicolinealidad | Inferencia inválida | Eficiencia |
Exogeneidad | Sesgo | Consistencia |
## Versión: 26/04/2024
Smith, G. (2015). Essential statistics, regression, and econometrics.
Stock, J. H., & Watson, M. W. (2020). Introduction to econometrics. Pearson.
Anderson, Sweeney & Williams, (2010). Statistics for Business and Economics.