BigQuery - serverless, scalable, cost-effective DW

What: Google Cloud’s serverless data warehouse (petabyte-scale), familiar SQL, infra 관리 없음 → DBA 부담 ↓.
Why: super-fast queries using Google infra; org size 불문 사용.
Access: Console, CLI, REST API (+ client libs: Java/.NET/Python), 3rd-party BI/ETL 툴 연동 가능.

Quick SQL (Standard SQL)

-- table: myproj.mydataset.groceries
-- alias g, return all columns
SELECT g.*
FROM `myproj.mydataset.groceries` AS g
LIMIT 100;

Dataflow - serverless data processing (batch + streaming)

What: Fully managed ETL/ELT service. Stream & batch 모두 같은 모델로 처리.
Dev model: Apache Beam SDK (Java/Python) + SQL; windowing/session 등 고급 연산 지원; source/sink 커넥터 다양.
Ops: infra/auto-scaling 관리형, GCP Operations(Logging/Monitoring)와 연동 → alerts/품질 모니터링.

Typical pipeline (개념)

Sources: Datastore, Pub/Sub, Kafka/Avro 등 → Dataflow(Beam) transform/enrich → Sinks: BigQuery, Vertex AI, Cloud Bigtable → Data Studio(실시간 대시보드)

Dataprep (Trifacta)

What: 코드 없이 탐색/클린징/준비(structured & unstructured)하는 serverless UI.
UX: 자동 스키마/타입/조인 후보/이상치 감지, 스텝마다 추천 트랜스폼.
운영: Trifacta(파트너) 운영, 설치/별도 라이선스/운영 오버헤드 없음, 규모에 맞춰 자동 확장.
아키텍처 패턴: BigQuery / Cloud Storage / 파일 업로드 → Dataprep에서 정제 → (선택) Dataflow 변환 파이프라인 실행 → 결과를 BigQuery 또는 Cloud Storage로 내보내 분석/ML.

Dataproc - managed Spark/Hadoop

What: 빠르고 쉬운 Spark/Hadoop 클러스터 매니지드 서비스 (Pig/Hive 포함).
속도/비용: 클러스터 start/scale/stop ~90초 수준, 초당 과금; preemptible 섞어 비용 절감.