FMB819 기말 프로젝트 가이드라인
🎯 프로젝트 목표
통계적 분석 기법(회귀, 인과관계 추론, 가설 검정 등)을 활용하여 흥미롭고 의미 있는 질문에 답하기
데이터를 수집·전처리하고, 적절한 분석 방법을 선택해 통계적으로 타당한 결론을 도출하기
분석 결과를 Quarto 마크다운 문서로 명확하고 간결하게 전달하기
👥 팀 구성
팀당 1~4명
팀원 전체가 프로젝트에 기여해야 하며, 리포트에 각자 기여한 내용을 명시
⏳ 제출 마감
최종 보고서 제출일: 2025년 5월 2일 금요일 자정 12시
간단한 proposal 혹은 중간 아이디어 공유 — optional but recommended)
📝 보고서 형식
Quarto 마크다운 문서 (.qmd)
분량: 약 10페이지 (텍스트, 표, 그래프 포함)
포함 항목:
- 연구 질문(Research Question)
- 데이터 설명
- 분석 방법론
- 결과 해석
- 한계 및 추가 연구 방향
💡 자유 주제
- 예를 들어…
- 금융: 주식, 암호화폐, ESG, 경제지표 등
- 스포츠: 경기 성적 예측, 선수 가치 평가 등
- 소비자 분석: 리뷰 데이터, 상품 가격 분석
- 사회 이슈: 실업률, 교육 수준, 범죄율, 건강 통계 등
- Kaggle 데이터셋이나 Open Data, 웹 스크래핑 데이터 활용도 가능
📦 데이터 관련
자체 수집 (웹 스크래핑, API 등) 또는 공개된 데이터셋 사용 가능
데이터 출처를 명확히 밝히고, 전처리 과정은 투명하게 설명
📊 평가 기준
| 평가 항목 | 설명 | 비중 |
|---|---|---|
| 주제의 창의성과 흥미도 | 독창적인 아이디어 또는 사회적·학문적으로 흥미로운 주제를 선택했는가? | 20% |
| 통계 분석의 적절성 | 회귀 분석, 가설 검정, 인과 추론 등 통계 기법을 적절히 사용했는가? | 30% |
| 결과 해석의 논리성 | 통계 결과를 명확하고 타당하게 해석하고 논리적인 결론을 도출했는가? | 20% |
| 보고서의 완성도 | 문서 구조, 시각화, 코드의 가독성 등 보고서가 잘 구성되어 있는가? | 20% |
| 팀워크 및 기여도 | 팀원 간 협업이 원활했으며, 모든 팀원이 프로젝트에 기여했는가? | 10% |
📦 무료 온라인 데이터 리소스
🌐 종합 데이터 플랫폼
| 플랫폼 | 설명 |
|---|---|
| Kaggle | 가장 인기 있는 오픈 데이터 커뮤니티. 다양한 분야 데이터셋 및 notebook 공유 |
| Google Dataset Search | 다양한 분야의 전 세계 오픈 데이터 검색 |
| UCI Machine Learning Repository | 머신러닝용 표준 데이터셋 모음 |
| Datahub.io | 다양한 분야의 오픈 데이터셋 및 API 제공 |
| OpenML | 공유 가능한 데이터셋 및 실험 플랫폼 |
| FiveThirtyEight Datasets | 저널리즘 기반 데이터 (정치, 스포츠, 소비자 등) |
💸 경제 · 금융 데이터
| 플랫폼 | 설명 |
|---|---|
| FRED (Federal Reserve) | 미국 경제지표 (GDP, 금리, 인플레이션 등) |
| World Bank Data | 전 세계 경제 및 사회 지표 |
| OECD Data | OECD 국가별 주요 통계 |
| IMF Data | 거시경제 및 국제 금융 통계 |
| Yahoo Finance | 주식시장 데이터 (R의 quantmod 등으로 수집 가능) |
| Quandl | 다양한 금융/경제 데이터 제공 (일부 무료, API 제공) |
🇰🇷 한국 데이터 리소스
| 플랫폼 | 설명 |
|---|---|
| KOSIS 국가통계포털 | 통계청 제공. 인구, 고용, 소득, 물가 등 다양한 국내 통계 |
| 공공데이터포털 | 정부 부처/지자체에서 제공하는 수천 개의 공공 데이터셋 |
| 서울열린데이터광장 | 서울시 관련 행정/생활 데이터 (교통, 복지, 환경 등) |
| 금융감독원 전자공시 | 상장기업 재무제표 및 공시자료 수집 가능 |
| 한국은행 경제통계시스템 | 금리, 환율, 통화량 등 거시경제 데이터 제공 (API 가능) |
| 금융보안원 오픈뱅킹 데이터 | 금융 소비자, 오픈 API, 핀테크 관련 데이터 |
📍 지역 · 공간 · 부동산 데이터
| 플랫폼 | 설명 |
|---|---|
| Zillow Research | 미국 주택 매매 및 임대 가격 데이터 |
| 국토교통부 부동산 통계 | 한국 부동산 시세, 거래량, 청약 데이터 등 |
| OpenStreetMap | 공간정보 활용 가능 (R의 osmdata 패키지 지원) |
| 서울부동산정보광장 | 서울시 부동산 거래 내역, 공시지가 등 |
🗣️ 소셜 · 텍스트 · 소비자 데이터
| 플랫폼 | 설명 |
|---|---|
| IMDb Datasets | 영화, 배우, 장르, 평점 등의 메타데이터 |
| Reddit / Twitter API | 소셜미디어 텍스트 데이터 분석 가능 (API 등록 필요) |
| TidyTuesday | R 커뮤니티 주간 데이터 분석 프로젝트용 오픈데이터 |
🧰 R 패키지로 활용 가능한 오픈데이터 예시
| 패키지 | 설명 |
|---|---|
quantmod |
주식시장 데이터 수집 및 시각화 |
tidyquant |
tidyverse 스타일 금융 데이터 분석 |
WDI |
World Bank 데이터 자동 수집 |
fredr |
FRED API 기반 경제지표 수집 |
rvest |
웹 스크래핑 도구 |
httr |
API 통신용 도구 |
📌 참고 팁
- 대부분 CSV, JSON, Excel, API 형태로 제공되어 R에서 쉽게 불러올 수 있습니다.
- 데이터 출처와 사용 목적(예: 분석/교육용)을 반드시 명시해야 합니다.