Overview

Apache Kafka는 분산형 커밋 로그(commit log) 기반의 메시징 시스템으로, 높은 처리량과 내결함성을 갖춘 이벤트 스트리밍 플랫폼입니다. 주요 특성은 다음과 같습니다.

퍼블리시–서브스크라이브 모델
- 프로듀서가 토픽(topic)에 메시지를 퍼블리시하고, 컨슈머가 이를 구독(subscribe)해 비동기적으로 처리
- 토픽을 파티션(partition) 단위로 분산 저장해 수평 확장 가능
내결함성 및 내구성
- 디스크에 영구 저장되는 커밋 로그를 복제(replication)해 브로커 장애 시에도 데이터 유실 방지
- 오프셋(offset) 관리로 컨슈머가 원하는 시점부터 재처리(reprocessing) 가능
높은 처리량과 낮은 지연
- 배치 전송 및 제로 카피(zero-copy) I/O를 통해 초당 수백만 건의 메시지도 무리 없이 처리
- 고성능 Java NIO 기반 네트워크 스택 활용
유연한 스트림 처리 연동
- Kafka Streams, ksqlDB 같은 내장 스트림 처리 API 제공
- Flink, Spark, Storm 등 외부 스트림 처리 엔진과도 손쉽게 통합
오픈소스 에코시스템
- Confluent가 제공하는 상용 확장판과 달리, Apache 라이선스 하에 무료로 사용·확장 가능
- 커뮤니티 주도 플러그인·커넥터 수백 가지 지원

Kafka stream vs Flink Datastream

Apache Kafka Stream(kafka-streams/ksqlDB) vs. Apache Flink Stream/Table API 비교

Apache Kafka 에 내장된 Kafka Streams와 ksqlDB는 “스트림 프로세싱 라이브러리이자 프레임워크”로, Kafka 토픽에서 바로 데이터를 읽고 쓰는 경량화된 모델을 제공합니다. 반면 Apache Flink 의 DataStream API와 Table/API & SQL은 독립 실행형 분산 처리 엔진으로, 다양한 소스·싱크를 지원하며 복잡한 상태 관리와 시간 지향 연산을 수행합니다.

특징	Kafka Streams / ksqlDB	Flink DataStream / Table API
아키텍처	애플리케이션 라이브러리(embedded), Kafka 클라이언트 위에서 실행	마스터(JobManager)–워커(TaskManager) 클러스터 기반 엔진
배포·운영	JVM 프로세스 단위로 독립 실행, Kafka 클러스터 외 별도 인프라 불필요	별도 플러그형 클러스터 필요, YARN/Kubernetes·Standalone 지원
상태 관리
(State)	RocksDB 내장, 토픽 백업 통해 체크포인트 관리	체크포인트·세이브포인트로 exactly-once 보장, RocksDB 포함 다수 백엔드
시간 의미
(Time Semantics)	인제션 타임 위주, 윈도우링은 지원하나 이벤트 타임 지연 처리 한계	이벤트-인제션-프로세싱 타임 전면 지원, 워터마크 기반 late 데이터 처리
API 스타일	Java/Kotlin DSL, ksqlDB SQL	Java/Scala/Python DataStream DSL, Table API·SQL 지원
스케일링	스레드 단위 분산(토픽 파티션 매핑), 클라이언트별 수평 확장 한계	클러스터 전체의 수천~수만 개 슬롯에 걸쳐 유연한 병렬도 조정
커넥터 지원	Kafka 중심, 외부 시스템은 커스텀 프로듀서·컨슈머로 구현 필요	100여 개 내장 커넥터 제공(Kafka, JDBC, Cassandra, Elasticsearch 등)

Kafka Streams / ksqlDB
- 장점: Kafka 기반 토폴로지 경량화, 운영 복잡도 낮음, Java API·SQL 인터페이스 직관적
- 제약: Kafka 외부 시스템 연동 시 직접 개발 필요, 이벤트 타임 지연·out-of-order 처리 기능 제한
Flink Stream / Table API
- 장점: 이벤트 타임·워터마크로 정확한 시간 처리, 다양한 소스·싱크·커넥터, 동적 재분배·스케일 아웃
- 제약: 별도의 클러스터 운영·리소스 관리 필요, 초기 설정 복잡도 상대적으로 높음

결론:

Kafka Streams/ksqlDB 는 Kafka 중심의 경량 스트림 처리로 토픽 기반 파이프라인 구축에 유리합니다.
Flink 는 이벤트 시간 정확도, 대규모 상태 관리, 다양한 커넥터가 필요한 복합 스트림·배치 워크로드에 최적화되어 있습니다.

Publisher Performance Test

카프카는 크게 Producer(=Publisher), Consumer(=Subscriber) 이용자로 나뉘며 각 행위를 Publish(=Produce), Subscribe(=Consume)으로 칭한다.

테스트 또한 Publisher, Subscriber로 나뉘어서 진행할 예정이다.