<aside> 🔥
reasoning을 원할 때만 할 수 있도록 모델을 학습하여 비용과 성능을 올리자! (2025년 6월 15일)
</aside>
최근 reasoning model이 사람의 깊은 추론이 필요한 영역에서도 좋은 성능을 보이고 있습니다. 그러나 생각하는 과정이 상당히 길어져서 추론하는 과정에서 처리 시간 및 메모리 등에 심각한 병목 현상을 발생시킵니다.
이 논문에서 사고(Thinking)을 생략하고 바로 마지막 해결책을 직접 생성하는 비사고(NoThinking)가 간단한 task에서는 성능과 효율성 모든 측면에서 더욱 좋은 선택이라는 것을 먼저 설명한다. 이것에 영감을 받아서, 우리는 문제의 난이도에 기반해서 적응형으로 최적의 생각(thinking) 모드를 선택하는 reasoning 모델을 학습하기 위해 AdaptThink라고 하는 새로운 RL 알고리즘을 제안한다.
특히, AdaptThink은 두개의 핵심 컴포넌트를 가지는데,
(1) 전체 성능을 유지하기 위해 모델이 NoThinking을 선택하도록 도와주는 constrained optimization 목적함수
(2) on-policy training 동안 Thinking(사고) 샘플과 NoThinking(비사고) 샘플 간의 균형을 맞추는 중요도 샘플링 전략
이로써 **콜드 스타트(cold start)**를 가능하게 하고, 훈련 과정 전체에서 두 사고 모드를 모두 탐색(explore)하고 활용(exploit)할 수 있게 합니다.
실험 결과에 따르면 AdaptThink는 추론(inference) 비용을 현저히 줄이면서 성능을 더욱 향상시킵니다. 특히 세 가지 수학 데이터셋에서 DeepSeek‑R1‑DistillQwen‑1.5B의 평균 응답 길이를 53% 단축하고, 정확도를 2.4% 향상시키며, 사고 모드(adaptive thinking-mode) 선택을 최적화하여 추론 품질과 효율성의 균형을 맞추는 데 큰 가능성을 보여줍니다.
⬅️ 이전 페이지
➡️ 다음 페이지
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
https://arxiv.org/abs/2505.13417
https://github.com/THU-KEG/AdaptThink
<aside>
AdaptThink: Reasoning Models Can Learn When to Think
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
From Local to Global: A GraphRAG Approach to Query-Focused Summarization
</aside>