🧩 임베딩 모델 비교 테스트 보고서

프로젝트명

작성일

작성자


1. 테스트 목적 및 범위

본 테스트는 사내 규정/교육 도메인 RAG 시스템에서 사용할 최종 임베딩 모델을 선정하기 위해 수행되었다.

⚠️ 본 보고서는 “임베딩에 따른 검색 품질”만 평가한다.

LLM이 실제로 생성하는 답변 품질(AnswerRelevancy, Faithfulness 등)은 추후 Ragas 기반 별도 평가에서 다룰 예정이다.

실험_ID 임베딩 모델 차원 간단 특징
EXP-E01 jhgan/ko-sroberta-multitask 768 한국어 멀티태스크 문장 임베딩, 성능 1위
EXP-E02 BAAI/bge-m3 1024 멀티링궐 범용 임베딩, 다국어 확장에 유리
EXP-E03 nlpai-lab/KURE-v1 1024 한국어 RAG 특화, 속도·성능 균형형
EXP-E04 BM-K/KoSimCSE-roberta-multitask 768 한국어 SimCSE 계열, 가장 빠른 속도
EXP-E05 dragonkue/multilingual-e5-small-ko 384 경량 e5 계열, 메모리 사용량 최소
EXP-E06 intfloat/multilingual-e5-large-instruct 1024 instruct 계열, 이번 세팅에서는 성능 낮음

2. 테스트 환경 및 공통 조건

2-1. 공통 설정