1. Abstract
<aside>
💡
기존 RAG처럼 “질문 전에 한 번 검색하고 답하기”로는 복잡한 질문을 풀기 어렵다.그래서 LLM이 추론하는 도중에 필요한 정보를 여러 번 검색하게 만들고, 최종 답뿐 아니라 중간 검색이 얼마나 유용했는지까지 보상으로 학습시키자.
</aside>
- 기존 RAG 문제점 : static, pre-inference retrieval (inference 전에 한 번 검색해서 그 결과를 prompt에 붙여넣은 뒤 generation) → 한번에 검색하기 어려운 복잡한 문제에는 부족함
- 최근 llm reasoning 수행 능력 향상 → adaptive inference-time retrieval이 더 효과적
[논문의 주장]
- InForage(Information Foraging Theory, 인간이 정보를 찾을 때 가치 있는 단서를 따라가며 탐색한다는 이론에서 영감을 받은 강화학습 프레임워크) → 중간 retrieval quality도 reward 줌
- Dataset : 질문-정답 쌍만 있는 기존 QA Dataset과 달리, trajectory를 담은 dataset
2. Introduction
- 논문에서 주목하는 질문 유형 : ambiguous, rationale-based, not directly searchable task
- 추론을 통해 하위 질문을 만들어야 하거나
- 모호하거나
- 그대로 검색해서는 답이 안 나오는 문제
- 즉, 추론 → 부분 검색 → 다시 추론 → 다시 검색 … → 통합 → 답변 구조를 요구하는 task
- Reasoning-based model들은 CoT, self-reflection, tool use같은 능력을 통해 어려운 task 성능을 높였음. RAG도 비슷하게 reasoning 과정 안에 retrieval을 끼워 넣은 agentic process로 봐야 함
- retrieval 결과를 단순히 query ↔ document간의 lexical relevance로만 판단하면 안되고, retrieval 결과가 query에 대한 최종 답변을 향해 reasoning을 진전시키는지에 대한 관점으로 판단해야 함
- Information Foraging Theory : 사람은 정보를 찾을 때, 얻을 수 있는 정보의 기대 가치와 탐색 비용을 비교하면서 움직인다.
- Information Scent : 이 단서가 답으로 이어질 것 같은 신호
- InForage(논문의 프레임워크) : 모델이 scent가 강한 방향으로 검색하도록 reward를 설계
- Inforage의 세 가지 reward
- Outcome Reward : 최종 답이 맞았는지
- Information Gain Reward : 중간 retrieval step 평가, 모델이 만든 subquery와 그 검색 결과가 최종 답을 위해 필요한 정보를 실제로 추가했는지 평가
- Efficiency Penalty : 불필요한 reasoning, 검색을 하지 못하게 하는 penalty
- Dataset 구성 : 인간이 실제로 검색하며 만든 multi-step search trajectory dataset 구축
- 검색 query
- 선택된 문서
- 중간 evidence
- reasoning trajectory
- 최종 QA
2. Method
2.1 Preliminary
reasoning LLM에서는 답변 Y를 두 부분으로 볼 수 있음