Batch: process stored data on a schedule (ex. payroll, monthly billing).
→ 느려도 OK, 큰 덩어리로 처리.
Streaming: continuous flow; process as it arrives (near-real time).
→ ex. fraud/intrusion detection, 실시간 알림.
→ 분석 결과에 기반한 즉각 행동이 목적.
Variety (다양성): 수많은 소스 & 포맷 (numbers, images, audio, POS, sensors).
→ 스키마/포맷 차이, 중복/정합성 이슈.
Volume (규모): GB → PB까지 스케일.
→ 파이프라인/인프라가 확장 가능해야 함.
Velocity (속도): near-real time 요구.
→ late data, bad messages, on-the-fly transform 처리 필요.
Veracity (진실성/품질): 소스 다양 → 불일치/불확실성.
→ 품질관리 전략 필수.