버전: 1.0
작성일: 2025년 1월
검증 방식: 실제 프로젝트 코드 기반 분석
CTRL+F는 오픈소스 RAGFlow 엔진을 기반으로 한국 기업 환경에 최적화된 커스터마이징을 수행했습니다. 특히 HWP 문서 처리, 규정형 문서 조 단위 청킹, Milvus 벡터 DB 직접 연동, 멀티모달 RAG 설계, 운영형 아키텍처를 통해 기존 솔루션이 제공하지 못하는 차별화된 가치를 제공합니다.
| 기능 | CTRL+F | Upstage | HyperCLOVA X | AWS/Azure |
|---|---|---|---|---|
| HWP 지원 | ✅ | ✅ | ❌ | ❌ |
| 조 단위 청킹 | ✅ | ❌ | ❌ | ❌ |
| OCR 앙상블 | ✅ | △ | △ | △ |
| 한국어 임베딩 | ✅ | ✅ | ✅ | △ |
| 온프레미스 | ✅ | △ | ❌ | ❌ |
| 오픈소스 기반 | ✅ | ❌ | ❌ | ❌ |
| 비용 | 무료 | 💰 | 💰 | 💰💰 |
┌─────────────────────────────────────────────────────────────┐
│ CTRL+F Platform │
├─────────────────────────────────────────────────────────────┤
│ ┌───────────────────────────────────────────────────────┐ │
│ │ 커스텀 전처리 파이프라인 │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │HWP변환 │→│SmartOCR │→│규정형 │→│임베딩 │ │ │
│ │ │(Libre │ │Engine │ │청킹 │ │Provider │ │ │
│ │ │Office) │ │ │ │ │ │ │ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │
│ └───────────────────────────────────────────────────────┘ │
├─────────────────────────────────────────────────────────────┤
│ ┌──────────────┐ ┌──────────────┐ ┌────────────┐ │
│ │ RAGFlow │ │ Milvus │ │ MySQL │ │
│ │ Server │ │ (벡터 DB) │ │ (메타데이터)│ │
│ └──────────────┘ └──────────────┘ └────────────┘ │
├─────────────────────────────────────────────────────────────┤
│ ┌──────────────┐ ┌──────────────┐ ┌────────────┐ │
│ │ 이미지 저장소 │ │ 표 저장소 │ │ Redis │ │
│ │ (PNG 파일) │ │ (JSON) │ │ (캐시) │ │
│ └──────────────┘ └──────────────┘ └────────────┘ │
└─────────────────────────────────────────────────────────────┘
[문서 업로드] → [HWP→DOCX 변환] → [PDF 타입 분류]
│
┌───────────────────┴───────────────────┐
▼ ▼
[text_pdf] [image_pdf]
│ │
▼ ▼
[텍스트 추출] [SmartOCR]
│ │
▼ ▼
[문서 타입 분류] [OCR 후처리]
(regulation/structured/general) │
│ │
└───────────────┬───────────────────────┘
▼
[규정형 청킹]
│
▼
[임베딩 생성]
│
┌───────────────┴───────────────┐
▼ ▼
[RAGFlow 저장] [Milvus 저장]
RAGFlow는 기본적으로 Elasticsearch를 사용하지만, CTRL+F는 Milvus를 직접 연동하여 벡터 검색 성능을 극대화했습니다.