Introdução à Ciência de Dados no R


Aula 01 - O que é Ciência de Dados?

Aula 01

Antonio Vinícius Barbosa

01-12-2024


Sobre mim

Antonio Vinícius Barbosa 👋

  • Doutor em Economia pelo PIMES/UFPE e Universitat Pompeu Fabra.
  • Professor do Departamento de Economia da Universidade Federal da Paraíba.
  • Professor do Programa de Pós-graduação em Economia (PPGE/UFPB).
  • Pesquisador do LEMA (Laboratório de Economia e Modelagem Aplicada).

O que é Ciência de Dados?

O que é Ciência de Dados?

A Ciência de Dados é a área de estudo dos dados desde seu processo de captura, transformação, análise e, posteriormente, da geração de informações e conhecimento para empresas, para o setor público e para os negócios.

O que é Ciência de Dados?

  • O método da Ciência de Dados significa fazer perguntas em busca de padrões importantes em um mundo de informações dos mais diversos formatos.
  • É a combinação de ferramentas de armazenamento, programação, modelagem estatística e de visualização, com o objetivo de gerar conhecimento e aplicar a situações reais.

O fluxo da Ciência de Dados

Adpatado de Alfred Reinold Baudisch

O que NÃO é Ciência de Dados?

O que NÃO é Ciência de Dados?

Informações descontextualizadas não configuram o campo da Ciência de Dados, pois não geram conhecimento relevante.

O que NÃO é Ciência de Dados?

Replicar códigos e análises de outras fontes não o faz um Cientista de Dados. É necessário dominar um conjunto de técnicas e ter conhecimento teórico do assunto.

O que NÃO é Ciência de Dados?

É de fundamental importância a interação e a comunicação em equipe sobre os métodos e resultados para o desenvovimento da Ciência de Dados. É um campo multidisciplinar.

Sobre o Curso 📜

Este NÃO é um curso sobre o software X ou sobre a linguagem Y!

O que é este curso?

Este curso introduz as principais técnicas computacionais para a leitura, manipulação, visualização e reprodução de dados socioeconômicos.

Com o advento da tecnologia da informação e o rápido crescimento da quantidade de dados disponíveis, é indispensável o uso de ferramentas de Ciência de Dados para uma análise econômica robusta e eficiente.

Cronograma de Aulas 🗓️

O cronograma estimado de encontros está organizado da seguinte forma:

  • Introdução à Ciência de Dados
  • Introdução ao R e ao RStudio
  • Estrutura de Dados no R
  • Leitura e operações básicas
  • Manipulação de dados (I)
  • Manipulação de dados (II)
  • Manipulação de dados (III)
  • Estatítica dos dados
  • Visualização gráfica (I)
  • Visualização gráfica (II)
  • Relatórios dinâmicos
  • Programação básica

Ao longo da disciplina, serão disponibilizadas quizzes e listas de exercício.

Avaliação 📝

A nota final (NF) na disciplina será atribuída de acordo com a seguinte função:

\[ \text{NF} = \text{Listas de Exercício} * 0.4 + \text{Avaliação Final}*0.6 \]

  • Ao final do curso, os alunos deverão entregar um projeto abrangendo o conteúdo discutido
  • Nesta disciplina, o interesse e o esforço desempenhado pelo aluno serão levados constantemente em consideração!

Algumas referências 📚

  • BRAUN, W. John; MURDOCH, Duncan J. A first course in statistical programming with R. Cambridge University Press, 2016.
  • WICKHAM, Hadley; GROLEMUND, Garrett. R for data science: import, tidy, transform, visualize, and model data. O’Reilly Media, Inc., 2016.
  • TEETOR, Paul. R cookbook: Proven recipes for data analysis, statistics, and graphics. O’Reilly Media, Inc., 2011.
  • KABACOFF, R. I. R in Action: data analysis and graphics with R. 2011.
  • MATLOFF, Norman. The art of R programming: A tour of statistical software design. No Starch Press, 2011.
  • RStudio Cheat Sheets https://www.rstudio.com/resources/cheatsheets/

Políticas do curso 👍

  • Todos os alunos são responsáveis por aulas perdidas e serão considerados cientes de qualquer anúncio feito durante as aulas;
  • Evite utilizar os computadores, notebooks e celulares para fins distintos ao dos conteúdos abordados durante as aulas;
  • Em hipótese alguma haverá adiantamento ou prorrogação das atividades.
  • É importante reforçar que as atividades não serão aceitas fora do prazo estipulado. Por questão de justiça e respeito com os demais colegas, não serão abertas exceções.
  • Espera-se dos alunos assiduidade em relação ao andamento do curso.

Integridade acadêmica

  • Apenas os projetos em grupo poderão ser entregues conjuntamente
  • Qualquer código utilizado de outras fontes e não citados explicitamente será tratado como plágio.
  • Nos exercícios individuais, os códigos não poderão ser compartilhados com os demais alunos.
  • Atitudes que vão de encontro com os princípios éticos desse curso serão devidamente analisados.

Introdução

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas

A Ciência dos Dados e os Novos Paradigmas





A OpenAI é a empresa que criou, no final de 2022, o ChatGPT.

Economia e Ciência de Dados

Link: https://medium.com/@metjush/4-reasons-why-economists-make-great-data-scientists-and-why-no-one-tells-them-524478845ec2

De onde vêm os dados?

De onde vêm os dados?

De onde vêm os dados?

De onde vêm os dados?

Observando o Airbnb

Através dos dados da plataforma do http://insideairbnb.com é possível entender, por exemplo, o efeito sobre preço de imóveis.

Observando o Airbnb

Em Barcelona, por exemplo, o preço dos alugueis e de compra dos imóveis cresceram tanto em regiões mais concentradas quanto em menos concentradas.

Dados do Uber

Informações sobre o tempo da corrida https://movement.uber.com/ informam sobre o deslocamento da população nas cidades…

Efeitos sobre Saúde

… e isso afeta saúde, produtividade, salários e o PIB dos municípios.

Por que utilizar o R?

The R Project for Statistical Computing

Por que utilizar o R?

  • Software gratuito
  • CRAN com mais de 10.000
  • Comunidade ativa e colaborativa
  • Versatilidade: manipulação de dados, modelagem estatística, gráficos
  • Integrabilidade

Principais linguagens

Instalando o R

1. Acessar https://cran.r-project.org/ e clicar em 'download R'.

Instalando o R

2.Selecione o mirror (servidor onde o R está disponível para download).

Instalando o R

3. Selecionar o sistema operacional.

Instalando o R

4. Selecione a opção para instalar o R pela primeira vez

Instalando o R

5. Selecione a versão mais recente e aguarde o download

R no Windows

Interface do no Windows

Ambientes de desenvolvimento integrado (IDE)

  • A forma mais conveniente de utilizar o R é através de uma interface gráfica através de janelas.
  • É possível interagir com o sistema através do , embora requeira maior conhecimento do usuário.
  • O desenvolvimento de Ambientes de Desenvolvimento Integrado (IDE) tem como objetivo facilitar a interação entre o usuário e o sistema.

RStudio

RStudio é um conjunto eficiente de ferramentas integradas https://posit.co/

Instalando o RStudio

Instalando o RStudio

Instalando o RStudio

Instalando o RStudio

Ambiente do RStudio

Outras IDEs

Além do RStudio, existem outras interfaces pra utilizar o R:

Posit Cloud

Outra possibilidade é utilizar a versão on-line do RStudio, através do Posit Cloud

Conhecendo o RStudio

Na próxima aula

Faremos um tour pelo RStudio e mostraremos suas funcionalidades. Introduziremos os seguintes conceitos:

  • Console
  • Scripts
  • Objetos
  • Funções básicas