목적: PPT 발표용 데이터 수집 전반 설명 자료

대상 종목: KOSPI200 구성 200종목 (편출입 이력 포함 시 336종목)

수집 기간: 2015-01-01 ~ 현재 (일별)


1. 수집 데이터 전체 구성

raw/
├── ohlcv/            337개 파일  ← 주가 시계열 (핵심)
├── supply_demand/    337개 파일  ← 수급 데이터
├── macro/             9개 파일  ← 거시경제 지표
├── financial/     10,427개 파일  ← 분기 재무제표 (DART)
├── fundamental/     134개 파일  ← 일별 밸류에이션 (KRX)
└── universe/          3개 파일  ← 종목 메타정보

2. 데이터별 상세 설명 및 채택 근거

2-1. OHLCV (주가 시계열)

항목 내용
출처 pykrx (KRX 한국거래소)
컬럼 open, high, low, close, volume
파일 종목당 1파일, ~2,700행 (2015~현재)
저장 raw/ohlcv/{ticker}.parquet

채택 이유:

2-2. 수급 데이터 (외국인/기관/개인 순매수)

항목 내용
출처 pykrx + KRX 세션 인증 (메인), KIS Open API (대체)
컬럼 foreign_net_buy, institution_net_buy, individual_net_buy + 누적값
파일 종목당 1파일
저장 raw/supply_demand/{ticker}.parquet

채택 이유: