1. Abstract

<aside> 💡

기존 RAG처럼 “질문 전에 한 번 검색하고 답하기”로는 복잡한 질문을 풀기 어렵다.그래서 LLM이 추론하는 도중에 필요한 정보를 여러 번 검색하게 만들고, 최종 답뿐 아니라 중간 검색이 얼마나 유용했는지까지 보상으로 학습시키자.

</aside>

[논문의 주장]

2. Introduction

2. Method

2.1 Preliminary

reasoning LLM에서는 답변 Y를 두 부분으로 볼 수 있음