CTRL+F 엔터프라이즈 AI 챗봇 서비스

기술 차별화 백서 (Technical Differentiation White Paper)

버전: 1.0

작성일: 2025년 1월

검증 방식: 실제 프로젝트 코드 기반 분석


Executive Summary

CTRL+F는 오픈소스 RAGFlow 엔진을 기반으로 한국 기업 환경에 최적화된 커스터마이징을 수행했습니다. 특히 HWP 문서 처리규정형 문서 조 단위 청킹Milvus 벡터 DB 직접 연동멀티모달 RAG 설계운영형 아키텍처를 통해 기존 솔루션이 제공하지 못하는 차별화된 가치를 제공합니다.

핵심 차별점 한눈에 보기

기능 CTRL+F Upstage HyperCLOVA X AWS/Azure
HWP 지원
조 단위 청킹
OCR 앙상블
한국어 임베딩
온프레미스
오픈소스 기반
비용 무료 💰 💰 💰💰

1. 기술 아키텍처

1.1 전체 시스템 구조

┌─────────────────────────────────────────────────────────────┐
│                     CTRL+F Platform                         │
├─────────────────────────────────────────────────────────────┤
│  ┌───────────────────────────────────────────────────────┐  │
│  │              커스텀 전처리 파이프라인                  │  │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐  │  │
│  │  │HWP변환   │→│SmartOCR  │→│규정형    │→│임베딩    │  │  │
│  │  │(Libre    │ │Engine    │ │청킹      │ │Provider  │  │  │
│  │  │Office)   │ │          │ │          │ │          │  │  │
│  │  └──────────┘ └──────────┘ └──────────┘ └──────────┘  │  │
│  └───────────────────────────────────────────────────────┘  │
├─────────────────────────────────────────────────────────────┤
│  ┌──────────────┐     ┌──────────────┐     ┌────────────┐   │
│  │   RAGFlow    │     │    Milvus    │     │   MySQL    │   │
│  │   Server     │     │  (벡터 DB)   │     │ (메타데이터)│   │
│  └──────────────┘     └──────────────┘     └────────────┘   │
├─────────────────────────────────────────────────────────────┤
│  ┌──────────────┐     ┌──────────────┐     ┌────────────┐   │
│  │ 이미지 저장소 │     │  표 저장소   │     │   Redis    │   │
│  │ (PNG 파일)   │     │  (JSON)      │     │  (캐시)    │   │
│  └──────────────┘     └──────────────┘     └────────────┘   │
└─────────────────────────────────────────────────────────────┘

1.2 데이터 흐름

[문서 업로드] → [HWP→DOCX 변환] → [PDF 타입 분류]
                                        │
                    ┌───────────────────┴───────────────────┐
                    ▼                                       ▼
              [text_pdf]                              [image_pdf]
                    │                                       │
                    ▼                                       ▼
              [텍스트 추출]                           [SmartOCR]
                    │                                       │
                    ▼                                       ▼
              [문서 타입 분류]                        [OCR 후처리]
              (regulation/structured/general)               │
                    │                                       │
                    └───────────────┬───────────────────────┘
                                    ▼
                              [규정형 청킹]
                                    │
                                    ▼
                              [임베딩 생성]
                                    │
                    ┌───────────────┴───────────────┐
                    ▼                               ▼
              [RAGFlow 저장]                  [Milvus 저장]


2. 핵심 기술 차별점

2.1 Milvus 벡터 DB 직접 연동

RAGFlow는 기본적으로 Elasticsearch를 사용하지만, CTRL+F는 Milvus를 직접 연동하여 벡터 검색 성능을 극대화했습니다.