BigQuery - serverless, scalable, cost-effective DW
- What: Google Cloud’s serverless data warehouse (petabyte-scale), familiar SQL, infra 관리 없음 → DBA 부담 ↓.
- Why: super-fast queries using Google infra; org size 불문 사용.
- Access: Console, CLI, REST API (+ client libs: Java/.NET/Python), 3rd-party BI/ETL 툴 연동 가능.
Quick SQL (Standard SQL)
-- table: myproj.mydataset.groceries
-- alias g, return all columns
SELECT g.*
FROM `myproj.mydataset.groceries` AS g
LIMIT 100;
Dataflow - serverless data processing (batch + streaming)
- What: Fully managed ETL/ELT service. Stream & batch 모두 같은 모델로 처리.
- Dev model: Apache Beam SDK (Java/Python) + SQL; windowing/session 등 고급 연산 지원; source/sink 커넥터 다양.
- Ops: infra/auto-scaling 관리형, GCP Operations(Logging/Monitoring)와 연동 → alerts/품질 모니터링.
Typical pipeline (개념)
Sources: Datastore, Pub/Sub, Kafka/Avro 등 → Dataflow(Beam) transform/enrich → Sinks: BigQuery, Vertex AI, Cloud Bigtable → Data Studio(실시간 대시보드)
Dataprep (Trifacta)
- What: 코드 없이 탐색/클린징/준비(structured & unstructured)하는 serverless UI.
- UX: 자동 스키마/타입/조인 후보/이상치 감지, 스텝마다 추천 트랜스폼.
- 운영: Trifacta(파트너) 운영, 설치/별도 라이선스/운영 오버헤드 없음, 규모에 맞춰 자동 확장.
- 아키텍처 패턴: BigQuery / Cloud Storage / 파일 업로드 → Dataprep에서 정제 → (선택) Dataflow 변환 파이프라인 실행 → 결과를 BigQuery 또는 Cloud Storage로 내보내 분석/ML.
Dataproc - managed Spark/Hadoop
- What: 빠르고 쉬운 Spark/Hadoop 클러스터 매니지드 서비스 (Pig/Hive 포함).
- 속도/비용: 클러스터 start/scale/stop ~90초 수준, 초당 과금; preemptible 섞어 비용 절감.