https://vutr.substack.com/p/how-clickhouse-built-their-internal

https://vutr.substack.com/p/i-spent-8-hours-learning-the-clickhouse

ClickHouse: 높은 삽입률, 빠르고 대규모 분석에 최적화된 컬럼 지향(Column-oriented) OLAP DB.

초기 아키텍처 구성

image.png

  1. 스케줄러: Apache Airflow
  2. 임시/중간 저장소: AWS S3
  3. BI 및 대시보드: Apache Superset
  4. DB 및 분석 엔진: ClickHouse Cloud

인프라 구성:

데이터 파이프라인

image.png

  1. 다수 소스로부터 매 시간단위(hourly)로 데이터를 S3에 수집(스냅샷 or 증분).
  2. ClickHouse의 S3 Table Function을 이용해 S3에 쌓인 파일을 Raw 테이블로 로드.
  3. Airflow 스케줄러가 ClickHouse 내부에서 트랜스포메이션(로직)을 수행해 MART 테이블로 가공.
  4. 최종 사용자(내부 팀)는 Superset으로 대시보드 확인 또는 SQL로 직접 조회.