Econometria III

Questões - Modelos de Escolha Qualitativa e Máxima Verossimilhança

Questão 1

Suponha que coletamos dados para um grupo de alunos em uma aula de econometria 3 com variáveis $x_1$ = horas estudadas, $x_2$ = nota final em econometria 1 e $y$ = nota acima de 9,0 (conceito A). Ajustamos uma regressão logística e os coeficientes estimados são, $\beta_0$ = −6, $\beta_1$ = 0,05 e $\beta_2$ = 0,5.

Em um modelo de regressão logística estamos interessados em estimar a probabilidade de resposta positiva, ou seja:

\[E[Y|\symbf{x}]=p(\symbf{x})=\frac{1}{1+\exp(-\symbf{x\beta})}\] onde $\symbf{x\beta}$ é a notação vetorial para uma combinação linear dos elementos de um vetor $\symbf{x}$ que contém a unidade como seu primeiro elemento.

Mostre que a especificação não-linear do logit para a probabilidade de resposta positiva implica em um modelo linear para log-odds ratio (razão entre probabilidades de sucesso e fracasso em logarítimo), $\log\left(\frac{p(\symbf{x})}{1-p(\symbf{x})}\right)$.

Estime a probabilidade de um estudante que estuda 40 horas e teve 7,0 como nota de econometria 1 de receber um A.

Quantas horas o aluno da parte b) precisaria estudar para ter 50% de chance de tirar A na disciplina?

Questão 2

Seja $\mathbf{z_1}$ um vetor de variáveis, $z_2$ uma variável contínua e seja $y$ e $d_1$ variáveis binárias.

No modelo $P(y=1|\mathbf{z_1}, z_2)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2z_2^2)$

Como você estimaria este modelo? Por quê?
Encontre o efeito parcial de $z_2$ na probabilidade de resposta.

No modelo $P(y=1|\mathbf{z_1}, z_2, d_1)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2d_1+\gamma_3z_2d_1)$

Como você mediria o efeito de $d_1$ na probabilidade de resposta?

Suponha que tenhamos uma amostra de tamanho $N$. Após estimar os parâmetros pelo método mais adequado:

Como você calcularia o efeito parcial médio (APE) de $z_2$ no modelo $P(y=1|\mathbf{z_1}, z_2)=\Phi(\mathbf{z_1\delta_1}+\gamma_1z_2+\gamma_2z_2^2)$? Escreva a equação e explique-a.

Questão 3

Considere o modelo de probabilidade linear $Y_{i}=\beta_{0}+\beta_{1} X_{i}+u_{i}$, em que $\operatorname{Pr}\left(Y_{i}=1 \mid X_{i}\right)=\beta_{0}+\beta_{1} X_{i}$.

Mostre que $\operatorname{Var}\left(u_{i} \mid X_{i}\right)=\left(\beta_{0}+\beta_{1} X_{i}\right)\left[1-\left(\beta_{0}+\beta_{1} X_{i}\right)\right]$
Qual das hipóteses do teorema de Gauss-Markov esta variância fere? Qual o problema gerado?
Descreva como você faria para corrigir este problema. (em no máximo 6 linhas)

Questão 4

Temos acesso aos dados de inadimplência de cartão de crédito de 5.000 pessoas e gostaríamos de modelar a probabilidade de inadimplência como função do saldo em aberto no cartão. Para tanto, recorremos ao modelo de probabilidades lineares (MPL) e ao modelo Logit. Os resultados da regressão são apresentados na Tabela abaixo:

	MPL	Logit
(Intercept)	-0.074	-10.611
	(0.005)	(0.509)
balance1K	0.129	5.509
	(0.005)	(0.313)
Num.Obs.	5000	5000
Nota: Erro-padrão entre parênteses.

onde a variável dependente é a situção devedora (1 = está inadimplente) e balance1K é o saldo do cartão em milhares de Reais.

O saldo do cartão parece ser relevante para determinar a situação de inadimplência? Qual a direção do efeito? (1,0 ponto)
no modelo MPL, a partir de qual valor de saldo a previsão de probabilidade passa a ser negativa? (1,0 ponto)
Sabendo que a média dos saldos e o percentil 75% são respectivamente de, 0.8283012 e 1.1602912, calcule o efeito do aumento de R$ 1.000 na probabilidade de inadimplência, tanto para MPL quanto para Logit, nestes pontos da distribuição. DICA: a distribuição logística é $\Lambda(z)=\frac{1}{1+\exp(-z)}$. (1,0 pontos)
Com base na matriz de confusão apresentada abaixo calcule o percentual cometido de erros do tipo I e II e responda, qual modelo você prefere utilizar e por que? (1,0 pontos)

	MPL		Logit
	FALSE	TRUE	FALSE	TRUE
FALSE	4834	0	4814	20
TRUE	166	0	120	46
Nota:
Para ambos os modelos o valor de 0,5 foi escolhido como limiar para determinar a previsão de resposta.

Questão 5

Considere que uma variável aleatória X tenha uma função de distribuição exponencial dada por:

\[f(x)=\frac{1}{\theta}\exp(-x/\theta)\] você observou uma amostra iid $\{x_i\}_{i=1}^N$.

Escreva a função de log-verossimilhança para estimar o parâmetro $\theta$.
Derive o estimador de Máxima Verossimilhança $\hat\theta$.

Questão 6

Um modelo de variável dependente binária pode ser racionalizado através de um modelo de variável latente. Seja $y_i^*=\beta_0 + \beta_1 x_i+e_i$ uma variável latente (não observada) e $y_i=\mathbb{1}\{y_i^* > 0\}$ a variável observada. Considere que a distribuição do erro $e$ seja $G$, simétrica ao redor de zero.

Mostre que $P(y=1|x)=G(\beta_0 + \beta_1 x_i)$. Ou seja, a variável observada $y_i$ segue um modelo binomial. DICA: use o fato que para distribuições simétricas ao redor de zero $1-G(-z)=G(z)$, $z\in\mathbb{R}$.

Suponha agora que $e|x,c \sim N(0,1)$ e exista uma variável explicativa não-observável que é independente de $x$. O modelo estrutural correto seria este

\[P(y_i=1|x_i, c_i)=\Phi(\beta_0 + \beta_1 x_i + \gamma c_i)\]

este problema é conhecido como heterogeneidade negligenciada. Considere que $c\sim N(0,\tau^2)$ e independente de ambos $x$ e $e$.

Escreva o problema na forma de variável latente. Uma expressão para $y^*$ e outra para $y$.
Qual a distribuição do erro composto $\gamma c + e$? Tipo, média e variância.
Mostre que neste caso, o que estimamos é $P(y_i=1|x_i)=\Phi((\beta_0 + \beta_1 x_i)/\sigma)$, onde $\sigma^2$ é a variância do erro composto.
Interprete o resultado do item anterior quanto a viés de estimação de $\beta_1$.

Questão 7

Quando nossa variável dependente é oriunda de um processo de contagem, ou seja, é inteira não negativa ($y_i \in \mathbb{Z_+}$), costuma-se utilizar a regressão de Poisson. A distribuição de Poisson é assim definida:

\[P(Y=k)=\frac{e^{-\lambda}\lambda^k}{k!}, \qquad k\in\mathbb{Z_+}\] onde o parâmetro $\lambda$ é o valor esperado de $Y$, $E[Y]=\lambda$. Na prática, sempre supomos que esta média é condicional a variáveis explanatórias e considerando que a variável dependente nunca assume valores negativos, uma parametrização para a sua média condicional é:

\[E[y|x]=\exp(\beta x).\]

Suponha que temos uma amostra aleatória de $N$ observações independentes, $\{(y_i, x_i)\}_{i=1}^N$, onde $y_i$ é um processo de contagem.

Com base nas informações acima, monte a função de verossimilhança de uma regressão de Poisson.
Derive a função score da maximização da log-verossimilhança. É possível resolver analiticamente esta equação?

Agora ajustamos um modelo de regressão de Poisson ao conjunto de dados Bikeshare. As variáveis explicativas para o número de ciclistas são:

workingday, variável dummy para dia de trabalho;
temp, temperatura normalizada. Normalização é $(t-t_{min})/(t_{max}-t_{min})$, com $t_{min}=-8^oC$ e $t_{max}=39^oC$;
weathersit, variável categórica da condição climática. As categorias de clima são clear, cloudy/misty, light rain/snow e heavy rain/snow.

Os resultados são mostrados na Tabela abaixo.

	(1)
(Intercept)	3.885
	(0.003)
workingday	-0.009
	(0.002)
temp	2.129
	(0.005)
weathersitcloudy/misty	-0.042
	(0.002)
weathersitlight rain/snow	-0.432
	(0.004)
weathersitheavy rain/snow	-0.761
	(0.167)
Num.Obs.	8645
Log.Lik.	-434895.777
Erro-padrão entre parênteses.

Qual o efeito parcial de uma variação marginal na temperatura no número de ciclistas ($PE_t$)? Encontre uma expressão analítica e responda se este efeito é constante. DICA: $PE_t=\partial E[y|\symbf{x}]/\partial x_t$
Qual o valor de $PE_t$ se for um dia claro, de trabalho e com temperatura normalizada de 0,5?

Qual o valor do efeito de uma mudança climática, de dia claro para chuva forte, em um dia de descanso com a menor temperatura registrada nos dados?

Questão 8

Demonstre que, para um modelo de regressão linear simples,

\[y_i=\beta_0+\beta_1 x_i+u_i\]

considerando que $u_i\sim N(0, \sigma^2)$, os estimadores de Máxima Verossimilhança são iguais aos estimadores de MQO. DICA: a função densidade da normal é

\[ {\displaystyle f(z)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {z-\mu }{\sigma }}\right)^{2}}} \]

Questão 9

Considere um modelo de probabilidade linear dado por $Y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\cdots + \beta_{k} X_{k i}+u_{i}$ e um modelo não linear do tipo:

\[ \operatorname{Pr}\left(Y_{i}=1\right)=G(Z) \]

sendo $Z=\beta_{0}+\beta_{1} X_{1 i}+\cdots+\beta_{k} X_{k i}$ e $0 \leq G(Z) \leq 1$.

Discorra sobre a diferença na interpretação dos coeficientes nos modelos de probabilidade Linear e não Linear (Probit ou Logit).
Apresente a forma dos efeito marginais nos modelos não lineares (obs: eles diferem nos casos contínuo, discreto e para dummies).

Questão 10

Assinale se as alternativas são verdadeiras (V) ou falsas (F). Fundamente sua resposta:

3.1 Sobre o modelo de probabilidade linear (MPL) $y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+$ $\ldots+\beta_{k} x_{k}+u$, onde y é uma variável binária assumindo somente os valores 0 e 1, é correto afirmar que:

A probabilidade de sucesso $P(Y=1 \mid X)$ é igual à esperança condicional de $y, E(Y \mid X)$, sendo a probabilidade de resposta linear nos parâmetros.
$\beta_{j}$ pode ser interpretado como a mudança em $y$ devido ao aumento de uma unidade de $x_{j}$, mantendo os demais fatores fixos.
O modelo de probabilidade linear, em geral, será homoscedástico.
Uma das limitações do modelo de probabilidade linear é que as probabilidades previstas pelo modelo podem estar abaixo de zero ou acima de 1.
O $R^{2}$ é uma boa medida de ajuste para modelos de probabilidade lineares.

3.2 Com relação aos modelos logit e probit de resposta binária, podemos afirmar que:

Eles evitam as limitações do MPL ao proporem modelos em que a probabilidade de resposta são funções não lineares dos parâmetros, que assumem valores apenas no intervalo de zero a um. No modelo logit, a função utilizada é a logística. Já no modelo probit, utiliza-se a função de distribuição Normal.
Utilizamos o método de mínimos quadrados ordinários na estimação desses tipos de modelo de resposta binária.
O efeito marginal das variáveis explicativas independe do valor em que estamos avaliando essas variáveis.

Questão 11

Para esse exercício, usaremos a base WAGE2.dta. Primeiro, crie uma variável dummy que seja igual a 1 se educ for maior que 12, 0 caso contrário. Queremos avaliar se brancos e negros divergem na probabilidade de entrar na faculdade.

Estime, usando OLS, o seguinte modelo:

\[ \text{college}=\beta_{0}+\beta_{1} \text{black}+\beta_{2} \text{meduc} \]

O que você conclui dessa estimação? Como podemos interpretar $\beta_{1}$ e $\beta_{2}$ ?

Analise os valores preditos de college. Eles estão entre 0 e 1 ?
Estime agora um modelo probit, usando os mesmos regressores. Qual a interpretação possível para os coeficientes encontrados?
Com base no modelo probit estimado, qual é a probabilidade de um negro cuja mãe tem 12 anos de educação ter entrado na faculdade?
Com base no modelo probit estimado, qual é a probabilidade de um negro cuja mãe tem 15 anos de educação ter entrado na faculdade?
Repita (d) e (e) para um branco.
O efeito marginal da educação da mãe na probabilidade do indivíduo ir para a faculdade depende de raça? No caso do OLS, estimado no item (a), esse efeito marginal dependia de raça?