https://vutr.substack.com/p/how-clickhouse-built-their-internal
https://vutr.substack.com/p/i-spent-8-hours-learning-the-clickhouse
ClickHouse: 높은 삽입률, 빠르고 대규모 분석에 최적화된 컬럼 지향(Column-oriented) OLAP DB.
초기 아키텍처 구성

- 스케줄러: Apache Airflow
- 임시/중간 저장소: AWS S3
- BI 및 대시보드: Apache Superset
- DB 및 분석 엔진: ClickHouse Cloud
인프라 구성:
- Docker 컨테이너로 Airflow(웹 서버/워커), Superset 등 구성.
- Airflow와 Superset은 Redis(작업 상태, 캐시)와 RDS(PostgreSQL) 공유.
- 사전에 Preprod / Prod 환경을 분리해 개발 및 배포 안정성 확보. 또한 Prod 환경 down 시 Preprod 환경 → Prod로 승격
데이터 파이프라인

- 다수 소스로부터 매 시간단위(hourly)로 데이터를 S3에 수집(스냅샷 or 증분).
- ClickHouse의 S3 Table Function을 이용해 S3에 쌓인 파일을 Raw 테이블로 로드.
- Airflow 스케줄러가 ClickHouse 내부에서 트랜스포메이션(로직)을 수행해 MART 테이블로 가공.
- 최종 사용자(내부 팀)는 Superset으로 대시보드 확인 또는 SQL로 직접 조회.