Tidyverse
tidyverse tidyverseO tidyverse é uma coleção de pacotes que facilitam a organização e visualização de dados.
readrO pacote readr oferece algumas funcionalidades que facilitam a leitura de dados no formato retangular. As principais funções do pacote readr são:
read_csv(): arquivos separados por vírgularead_csv2(): arquivos separados por ponto-e-vírgularead_delim(): arquivos separados por qualquer delimitador
Para ler os dados, fazemos:
Para fazer uma checagem inicial da estrutura dos dados, utilizamos a função glimpse()
# Checar dados
glimpse(dados_gapminder)
## Rows: 1,704
## Columns: 6
## $ pais <chr> "Afeganistão", "Afeganistão", "Afeganistão", "Afeg…
## $ continente <chr> "Ásia", "Ásia", "Ásia", "Ásia", "Ásia", "Ásia", "Á…
## $ ano <dbl> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 19…
## $ expectativa_de_vida <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39…
## $ populacao <dbl> 8425333, 9240934, 10267083, 11537966, 13079460, 14…
## $ pib_per_capita <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, …pipe (|>)|>) são chamados de pipesConsidere o seguinte exemplo:
pipe (|>)Outro exemplo:
dplyrdplyr é um pacote bastante útil para manipular dados.
As principais funções do dplyr são:
select(): seleciona por coluna do banco de dadosfilter(): seleciona linhas baseado em seu valormutate(): cria/modifica colunas baseado em colunas existentessummarise(): realiza operações sobre um conjunto de valoresarrange(): reordena as linhas da base de dadosselect()Utilizamos select() para selecionar colunas ou variáveis dos dados:

select()# Selecionar variaveis
dados_gapminder |>
select(pais, ano, populacao) |>
head()
## # A tibble: 6 × 3
## pais ano populacao
## <chr> <dbl> <dbl>
## 1 Afeganistão 1952 8425333
## 2 Afeganistão 1957 9240934
## 3 Afeganistão 1962 10267083
## 4 Afeganistão 1967 11537966
## 5 Afeganistão 1972 13079460
## 6 Afeganistão 1977 14880372filter()A função filter() permite selecionar observações baseado em seus valores ou em uma condição:

filter()# Selecionar variaveis
dados_gapminder |>
select(pais, ano, populacao) |>
filter(ano == 2007) |>
head()
## # A tibble: 6 × 3
## pais ano populacao
## <chr> <dbl> <dbl>
## 1 Afeganistão 2007 31889923
## 2 Albânia 2007 3600523
## 3 Argélia 2007 33333216
## 4 Angola 2007 12420476
## 5 Argentina 2007 40301927
## 6 Austrália 2007 20434176filter()Outros exemplos com a função filter():
# Selecionar variaveis
dados_gapminder |>
select(pais, continente, ano, populacao) |>
filter(ano == 2007, continente == "Américas") |>
head()
## # A tibble: 6 × 4
## pais continente ano populacao
## <chr> <chr> <dbl> <dbl>
## 1 Argentina Américas 2007 40301927
## 2 Bolívia Américas 2007 9119152
## 3 Brasil Américas 2007 190010647
## 4 Canadá Américas 2007 33390141
## 5 Chile Américas 2007 16284741
## 6 Colômbia Américas 2007 44227550mutate()Utilizamos mutate() para criar ou modificar variáveis (colunas) baseado em outras variáveis do banco de dados:

mutate()# Selecionar variaveis
dados_gapminder |>
select(pais, continente, ano, populacao, pib_per_capita) |>
filter(ano == 2007, continente == "Américas") |>
mutate(pib = populacao * pib_per_capita) |>
head()
## # A tibble: 6 × 6
## pais continente ano populacao pib_per_capita pib
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Argentina Américas 2007 40301927 12779. 5.15e11
## 2 Bolívia Américas 2007 9119152 3822. 3.49e10
## 3 Brasil Américas 2007 190010647 9066. 1.72e12
## 4 Canadá Américas 2007 33390141 36319. 1.21e12
## 5 Chile Américas 2007 16284741 13172. 2.14e11
## 6 Colômbia Américas 2007 44227550 7007. 3.10e11arrange()Utilizamos mutate() ordena a base de dados, baseada em uma ou mais variáveis:

arrange()# Selecionar variaveis
dados_gapminder |>
select(pais, continente, ano, populacao, pib_per_capita) |>
filter(ano == 2007, continente == "Américas") |>
mutate(pib = populacao * pib_per_capita) |>
arrange(pib) |>
head()
## # A tibble: 6 × 6
## pais continente ano populacao pib_per_capita pib
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Haiti Américas 2007 8502814 1202. 10217297216.
## 2 Nicarágua Américas 2007 5675356 2749. 15603375235.
## 3 Trindade e Tobago Américas 2007 1056608 18009. 19027934931.
## 4 Jamaica Américas 2007 2780132 7321. 20353013485.
## 5 Honduras Américas 2007 7483763 3548. 26554867097.
## 6 Paraguai Américas 2007 6667147 4173. 27820927447.summarise()A função summarise() realiza operações sobre um conjunto de observações, reduzindo variáveis a valores.

summarise()dados_gapminder |>
filter(ano == 2007) |>
summarise(pib_pc_min = min(pib_per_capita),
pib_pc_mean = mean(pib_per_capita),
pib_pc_mediana = median(pib_per_capita),
pib_pc_max = max(pib_per_capita),
pib_pc_dp = sd(pib_per_capita))
## # A tibble: 1 × 5
## pib_pc_min pib_pc_mean pib_pc_mediana pib_pc_max pib_pc_dp
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 278. 11680. 6124. 49357. 12860.summarise()Para calcular estatísticas para grupos específicos, utilizamos o summarise() juntamente com a função group_by()
ggplot2O pacote ggplot2 é um dos mais elegantes e flexíveis ferramentas de visualização gráfica do R.

|>), onde é possível adicionar camadas e informações através de um operador sequencial (+)ggplot2Abaixo temos o primeiro exemplo de gráfico:
ggplot2
ggplot2De forma geral, existem quatro partes fundamentais para a visualização no ggplot2:

ggplot2A função ggplot(), a camada data, as variáveis através do aes() e a camada de geometria, especificada por geom_xxx(). Algumas geometrias disponíveis são:
geom_line()geom_bar()geom_col()geom_histogram()geom_density()geom_polygon()geom_smooth()geom_text()ggplot2Abaixo temos o primeiro exemplo de gráfico:
Lab. Econometria
ggplot2