Overview

Apache Flink는 대규모 데이터 처리를 위한 분산형 스트리밍 및 배치 데이터 처리 프레임워크으로 실시간 데이터 분석, 이벤트 기반 애플리케이션 개발 등에 널리 활용된다.

기본적인 Flink를 설명하고 하단에 k8s 환경에서 운영 중인 flink에 대해서 서술한다.

<aside> 💡

2025.03.24 Flink 2.0 신규 메이저 버전이 출시되었다.

특징

Materialized Tables 배치의 도입 및 개선을 통해 사용자는 스트림 처리의 복잡성이나 스트림 및 배치 실행 모드의 차이점을 이해할 필요 없이 비즈니스 로직에 집중할 수 있습니다. 이를 통해 개발 과정이 간소화되고 다양한 분야의 사용자 생산성이 향상됩니다.

실행 모드의 최적화는 실시간 또는 비실시간 처리만으로 충분한 시나리오에서 비용 효율적인 대안을 제공하여 Flink의 다양한 사용 사례에 대한 활용성을 확장합니다.

또한 Apache Paimon과의 긴밀한 통합으로 Streaming Lakehouse 아키텍처가 강화되어 Flink가 실시간 데이터 레이크 사용 사례를 위한 선도적인 솔루션이 되었습니다.

AI와 LLM의 중요성이 커짐에 따라 확장 가능한 실시간 데이터 처리 솔루션에 대한 수요도 증가하고 있습니다. Flink 2.0은 성능, 리소스 효율성, 사용 편의성 측면에서 향상된 기능을 제공하여 AI 워크플로우의 강력한 기반으로 자리매김하고 있으며, Flink는 실시간 데이터 처리 혁신의 선두를 유지하고 있습니다.

이슈

Flink 2.0.0 그리고 Flink 1.20 > 버전에서 다양한 Connector들이 지원 안되는 이슈가 있다. 그렇기 때문에 해당 페이지에서 하는 내용은 1.19.2 버전을 기준으로 작성한다.

추후에 2.0.0 버전의 LTS인 2.2.0에는 메이저 Connector들을 추가한다 하였으니 출시 후에 업그레이드 하도록 한다.

</aside>

Concept

스트리밍 중심 처리
- Flink는 기본적으로 스트리밍 처리 엔진입니다.
- 배치 처리도 스트리밍처럼 처리하는 "Streaming-first" 아키텍처를 채택합니다.
상태 기반 처리
- 상태(state)를 저장하고 관리함으로써 복잡한 이벤트 처리나 시간 기반 집계가 가능합니다.
- 상태는 RocksDB 등에 저장할 수 있으며, checkpoint로 복구 가능합니다.
Event Time 처리
- 데이터 생성 시간(Event time) 기준으로 정확한 처리 가능.
- Watermark 기반으로 지연 데이터도 효과적으로 처리.

Component

JobManager
- 클러스터의 중앙 조정자 역할을 합니다.
- 작업(Job) 스케줄링 및 리소스 분배 담당.
TaskManager
- 실질적인 데이터 처리를 수행하는 워커 노드입니다.
- Slot이라는 단위로 리소스를 할당받아 실행됩니다.
Flink Runtime
- 내부적으로 Task Graph를 생성하고, 병렬로 실행할 수 있도록 최적화합니다.
- Backpressure, checkpoint, state snapshot 등을 지원.

API Layer

Low-Level API (ProcessFunction)
- 스트림을 세밀하게 제어하고 처리하는 데 사용됩니다.
- 키 기반, 타이머 등도 활용 가능.
DataStream API
- 일반적인 스트리밍 처리를 위한 API.
- map, filter, keyBy, window, reduce 등의 연산 지원.
Table API & SQL
- 선언형 DSL을 통한 데이터 처리.
- SELECT, JOIN, GROUP BY 등의 SQL 구문 사용 가능.
- PyFlink, Java, Scala 등 다양한 언어 지원.

Advanctage

고성능
- 수천 TPS(Transactions Per Second) 처리가 가능하며, 밀리초 단위의 지연(latency)을 자랑.
확장성
- 수십~수백 개의 노드로 수평 확장 가능.
- 자동 리소스 분배 및 장애 복구 기능.