Econometria III
Questões - Modelos de Escolha Qualitativa e Máxima Verossimilhança
Questão 1
Suponha que coletamos dados para um grupo de alunos em uma aula de econometria 3 com variáveis \(x_1\) = horas estudadas, \(x_2\) = nota final em econometria 1 e \(y\) = nota acima de 9,0 (conceito A). Ajustamos uma regressão logística e os coeficientes estimados são, \(\beta_0\) = −6, \(\beta_1\) = 0,05 e \(\beta_2\) = 0,5.
- Em um modelo de regressão logística estamos interessados em estimar a probabilidade de resposta positiva, ou seja:
\[E[Y|\symbf{x}]=p(\symbf{x})=\frac{1}{1+\exp(-\symbf{x\beta})}\] onde \(\symbf{x\beta}\) é a notação vetorial para uma combinação linear dos elementos de um vetor \(\symbf{x}\) que contém a unidade como seu primeiro elemento.
Mostre que a especificação não-linear do logit para a probabilidade de resposta positiva implica em um modelo linear para log-odds ratio (razão entre probabilidades de sucesso e fracasso em logarítimo), \(\log\left(\frac{p(\symbf{x})}{1-p(\symbf{x})}\right)\).
- Estime a probabilidade de um estudante que estuda 40 horas e teve 7,0 como nota de econometria 1 de receber um A.
- Quantas horas o aluno da parte b) precisaria estudar para ter 50% de chance de tirar A na disciplina?
Questão 2
Seja \(\mathbf{z_1}\) um vetor de variáveis, \(z_2\) uma variável contínua e seja \(y\) e \(d_1\) variáveis binárias.
No modelo \(P(y=1|\mathbf{z_1}, z_2)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2z_2^2)\)
Como você estimaria este modelo? Por quê?
Encontre o efeito parcial de \(z_2\) na probabilidade de resposta.
No modelo \(P(y=1|\mathbf{z_1}, z_2, d_1)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2d_1+\gamma_3z_2d_1)\)
- Como você mediria o efeito de \(d_1\) na probabilidade de resposta?
Suponha que tenhamos uma amostra de tamanho \(N\). Após estimar os parâmetros pelo método mais adequado:
- Como você calcularia o efeito parcial médio (APE) de \(z_2\) no modelo \(P(y=1|\mathbf{z_1}, z_2)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2z_2^2)\)? Escreva a equação e explique-a.
Questão 3
Considere o modelo de probabilidade linear \(Y_{i}=\beta_{0}+\beta_{1} X_{i}+u_{i}\), em que \(\operatorname{Pr}\left(Y_{i}=1 \mid X_{i}\right)=\beta_{0}+\beta_{1} X_{i}\).
Mostre que \(\operatorname{Var}\left(u_{i} \mid X_{i}\right)=\left(\beta_{0}+\beta_{1} X_{i}\right)\left[1-\left(\beta_{0}+\beta_{1} X_{i}\right)\right]\)
Qual das hipóteses do teorema de Gauss-Markov esta variância fere? Qual o problema gerado?
Descreva como você faria para corrigir este problema. (em no máximo 6 linhas)
Questão 4
Temos acesso aos dados de inadimplência de cartão de crédito de 5.000 pessoas e gostaríamos de modelar a probabilidade de inadimplência como função do saldo em aberto no cartão. Para tanto, recorremos ao modelo de probabilidades lineares (MPL) e ao modelo Logit. Os resultados da regressão são apresentados na Tabela abaixo:
MPL | Logit | |
---|---|---|
(Intercept) | -0.074 | -10.611 |
(0.005) | (0.509) | |
balance1K | 0.129 | 5.509 |
(0.005) | (0.313) | |
Num.Obs. | 5000 | 5000 |
Nota: Erro-padrão entre parênteses. |
onde a variável dependente é a situção devedora (1 = está inadimplente) e balance1K
é o saldo do cartão em milhares de Reais.
O saldo do cartão parece ser relevante para determinar a situação de inadimplência? Qual a direção do efeito? (1,0 ponto)
no modelo MPL, a partir de qual valor de saldo a previsão de probabilidade passa a ser negativa? (1,0 ponto)
Sabendo que a média dos saldos e o percentil 75% são respectivamente de, 0.8283012 e 1.1602912, calcule o efeito do aumento de R$ 1.000 na probabilidade de inadimplência, tanto para MPL quanto para Logit, nestes pontos da distribuição. DICA: a distribuição logística é \(\Lambda(z)=\frac{1}{1+\exp(-z)}\). (1,0 pontos)
Com base na matriz de confusão apresentada abaixo calcule o percentual cometido de erros do tipo I e II e responda, qual modelo você prefere utilizar e por que? (1,0 pontos)
MPL
|
Logit
|
|||
---|---|---|---|---|
FALSE | TRUE | FALSE | TRUE | |
FALSE | 4834 | 0 | 4814 | 20 |
TRUE | 166 | 0 | 120 | 46 |
Nota: | ||||
Para ambos os modelos o valor de 0,5 foi escolhido como limiar para determinar a previsão de resposta. |
Questão 5
Considere que uma variável aleatória X tenha uma função de distribuição exponencial dada por:
\[f(x)=\frac{1}{\theta}\exp(-x/\theta)\] você observou uma amostra iid \(\{x_i\}_{i=1}^N\).
Escreva a função de log-verossimilhança para estimar o parâmetro \(\theta\).
Derive o estimador de Máxima Verossimilhança \(\hat\theta\).
Questão 6
Um modelo de variável dependente binária pode ser racionalizado através de um modelo de variável latente. Seja \(y_i^*=\beta_0 + \beta_1 x_i+e_i\) uma variável latente (não observada) e \(y_i=\mathbb{1}\{y_i^* > 0\}\) a variável observada. Considere que a distribuição do erro \(e\) seja \(G\), simétrica ao redor de zero.
- Mostre que \(P(y=1|x)=G(\beta_0 + \beta_1 x_i)\). Ou seja, a variável observada \(y_i\) segue um modelo binomial. DICA: use o fato que para distribuições simétricas ao redor de zero \(1-G(-z)=G(z)\), \(z\in\mathbb{R}\).
Suponha agora que \(e|x,c \sim N(0,1)\) e exista uma variável explicativa não-observável que é independente de \(x\). O modelo estrutural correto seria este
\[P(y_i=1|x_i, c_i)=\Phi(\beta_0 + \beta_1 x_i + \gamma c_i)\]
este problema é conhecido como heterogeneidade negligenciada. Considere que \(c\sim N(0,\tau^2)\) e independente de ambos \(x\) e \(e\).
Escreva o problema na forma de variável latente. Uma expressão para \(y^*\) e outra para \(y\).
Qual a distribuição do erro composto \(\gamma c + e\)? Tipo, média e variância.
Mostre que neste caso, o que estimamos é \(P(y_i=1|x_i)=\Phi((\beta_0 + \beta_1 x_i)/\sigma)\), onde \(\sigma^2\) é a variância do erro composto.
Interprete o resultado do item anterior quanto a viés de estimação de \(\beta_1\).
Questão 7
Quando nossa variável dependente é oriunda de um processo de contagem, ou seja, é inteira não negativa (\(y_i \in \mathbb{Z_+}\)), costuma-se utilizar a regressão de Poisson. A distribuição de Poisson é assim definida:
\[P(Y=k)=\frac{e^{-\lambda}\lambda^k}{k!}, \qquad k\in\mathbb{Z_+}\] onde o parâmetro \(\lambda\) é o valor esperado de \(Y\), \(E[Y]=\lambda\). Na prática, sempre supomos que esta média é condicional a variáveis explanatórias e considerando que a variável dependente nunca assume valores negativos, uma parametrização para a sua média condicional é:
\[E[y|x]=\exp(\beta x).\]
Suponha que temos uma amostra aleatória de \(N\) observações independentes, \(\{(y_i, x_i)\}_{i=1}^N\), onde \(y_i\) é um processo de contagem.
Com base nas informações acima, monte a função de verossimilhança de uma regressão de Poisson.
Derive a função score da maximização da log-verossimilhança. É possível resolver analiticamente esta equação?
Agora ajustamos um modelo de regressão de Poisson ao conjunto de dados Bikeshare
. As variáveis explicativas para o número de ciclistas são:
workingday
, variável dummy para dia de trabalho;temp
, temperatura normalizada. Normalização é \((t-t_{min})/(t_{max}-t_{min})\), com \(t_{min}=-8^oC\) e \(t_{max}=39^oC\);weathersit
, variável categórica da condição climática. As categorias de clima sãoclear
,cloudy/misty
,light rain/snow
eheavy rain/snow
.
Os resultados são mostrados na Tabela abaixo.
(1) | |
---|---|
(Intercept) | 3.885 |
(0.003) | |
workingday | -0.009 |
(0.002) | |
temp | 2.129 |
(0.005) | |
weathersitcloudy/misty | -0.042 |
(0.002) | |
weathersitlight rain/snow | -0.432 |
(0.004) | |
weathersitheavy rain/snow | -0.761 |
(0.167) | |
Num.Obs. | 8645 |
Log.Lik. | -434895.777 |
Erro-padrão entre parênteses. |
Qual o efeito parcial de uma variação marginal na temperatura no número de ciclistas (\(PE_t\))? Encontre uma expressão analítica e responda se este efeito é constante. DICA: \(PE_t=\partial E[y|\symbf{x}]/\partial x_t\)
Qual o valor de \(PE_t\) se for um dia claro, de trabalho e com temperatura normalizada de 0,5?
- Qual o valor do efeito de uma mudança climática, de dia claro para chuva forte, em um dia de descanso com a menor temperatura registrada nos dados?
Questão 8
Demonstre que, para um modelo de regressão linear simples,
\[y_i=\beta_0+\beta_1 x_i+u_i\]
considerando que \(u_i\sim N(0, \sigma^2)\), os estimadores de Máxima Verossimilhança são iguais aos estimadores de MQO. DICA: a função densidade da normal é
\[ {\displaystyle f(z)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {z-\mu }{\sigma }}\right)^{2}}} \]
Questão 9
Considere um modelo de probabilidade linear dado por \(Y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\cdots + \beta_{k} X_{k i}+u_{i}\) e um modelo não linear do tipo:
\[ \operatorname{Pr}\left(Y_{i}=1\right)=G(Z) \]
sendo \(Z=\beta_{0}+\beta_{1} X_{1 i}+\cdots+\beta_{k} X_{k i}\) e \(0 \leq G(Z) \leq 1\).
Discorra sobre a diferença na interpretação dos coeficientes nos modelos de probabilidade Linear e não Linear (Probit ou Logit).
Apresente a forma dos efeito marginais nos modelos não lineares (obs: eles diferem nos casos contínuo, discreto e para dummies).
Questão 10
Assinale se as alternativas são verdadeiras (V) ou falsas (F). Fundamente sua resposta:
3.1 Sobre o modelo de probabilidade linear (MPL) \(y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\) \(\ldots+\beta_{k} x_{k}+u\), onde y é uma variável binária assumindo somente os valores 0 e 1, é correto afirmar que:
A probabilidade de sucesso \(P(Y=1 \mid X)\) é igual à esperança condicional de \(y, E(Y \mid X)\), sendo a probabilidade de resposta linear nos parâmetros.
\(\beta_{j}\) pode ser interpretado como a mudança em \(y\) devido ao aumento de uma unidade de \(x_{j}\), mantendo os demais fatores fixos.
O modelo de probabilidade linear, em geral, será homoscedástico.
Uma das limitações do modelo de probabilidade linear é que as probabilidades previstas pelo modelo podem estar abaixo de zero ou acima de 1.
O \(R^{2}\) é uma boa medida de ajuste para modelos de probabilidade lineares.
3.2 Com relação aos modelos logit e probit de resposta binária, podemos afirmar que:
Eles evitam as limitações do MPL ao proporem modelos em que a probabilidade de resposta são funções não lineares dos parâmetros, que assumem valores apenas no intervalo de zero a um. No modelo logit, a função utilizada é a logística. Já no modelo probit, utiliza-se a função de distribuição Normal.
Utilizamos o método de mínimos quadrados ordinários na estimação desses tipos de modelo de resposta binária.
O efeito marginal das variáveis explicativas independe do valor em que estamos avaliando essas variáveis.
Questão 11
Para esse exercício, usaremos a base WAGE2.dta. Primeiro, crie uma variável dummy que seja igual a 1 se educ for maior que 12, 0 caso contrário. Queremos avaliar se brancos e negros divergem na probabilidade de entrar na faculdade.
- Estime, usando OLS, o seguinte modelo:
\[ \text{college}=\beta_{0}+\beta_{1} \text{black}+\beta_{2} \text{meduc} \]
O que você conclui dessa estimação? Como podemos interpretar \(\beta_{1}\) e \(\beta_{2}\) ?
Analise os valores preditos de college. Eles estão entre 0 e 1 ?
Estime agora um modelo probit, usando os mesmos regressores. Qual a interpretação possível para os coeficientes encontrados?
Com base no modelo probit estimado, qual é a probabilidade de um negro cuja mãe tem 12 anos de educação ter entrado na faculdade?
Com base no modelo probit estimado, qual é a probabilidade de um negro cuja mãe tem 15 anos de educação ter entrado na faculdade?
Repita (d) e (e) para um branco.
O efeito marginal da educação da mãe na probabilidade do indivíduo ir para a faculdade depende de raça? No caso do OLS, estimado no item (a), esse efeito marginal dependia de raça?