<aside> ๐ฅ
reasoning์ ์ํ ๋๋ง ํ ์ ์๋๋ก ๋ชจ๋ธ์ ํ์ตํ์ฌ ๋น์ฉ๊ณผ ์ฑ๋ฅ์ ์ฌ๋ฆฌ์! (2025๋ 6์ 15์ผ)
</aside>
์ต๊ทผ reasoning model์ด ์ฌ๋์ ๊น์ ์ถ๋ก ์ด ํ์ํ ์์ญ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์๊ฐํ๋ ๊ณผ์ ์ด ์๋นํ ๊ธธ์ด์ ธ์ ์ถ๋ก ํ๋ ๊ณผ์ ์์ ์ฒ๋ฆฌ ์๊ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๋ฑ์ ์ฌ๊ฐํ ๋ณ๋ชฉ ํ์์ ๋ฐ์์ํต๋๋ค.
์ด ๋ ผ๋ฌธ์์ ์ฌ๊ณ (Thinking)์ ์๋ตํ๊ณ ๋ฐ๋ก ๋ง์ง๋ง ํด๊ฒฐ์ฑ ์ ์ง์ ์์ฑํ๋ ๋น์ฌ๊ณ (NoThinking)๊ฐ ๊ฐ๋จํ task์์๋ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ๋ชจ๋ ์ธก๋ฉด์์ ๋์ฑ ์ข์ ์ ํ์ด๋ผ๋ ๊ฒ์ ๋จผ์ ์ค๋ช ํ๋ค. ์ด๊ฒ์ ์๊ฐ์ ๋ฐ์์, ์ฐ๋ฆฌ๋ ๋ฌธ์ ์ ๋์ด๋์ ๊ธฐ๋ฐํด์ ์ ์ํ์ผ๋ก ์ต์ ์ ์๊ฐ(thinking) ๋ชจ๋๋ฅผ ์ ํํ๋ reasoning ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด AdaptThink๋ผ๊ณ ํ๋ ์๋ก์ด RL ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค.
ํนํ, AdaptThink์ ๋๊ฐ์ ํต์ฌ ์ปดํฌ๋ํธ๋ฅผ ๊ฐ์ง๋๋ฐ,
(1) ์ ์ฒด ์ฑ๋ฅ์ ์ ์งํ๊ธฐ ์ํด ๋ชจ๋ธ์ด NoThinking์ ์ ํํ๋๋ก ๋์์ฃผ๋ constrained optimization ๋ชฉ์ ํจ์
(2) on-policy training ๋์ Thinking(์ฌ๊ณ ) ์ํ๊ณผ NoThinking(๋น์ฌ๊ณ ) ์ํ ๊ฐ์ ๊ท ํ์ ๋ง์ถ๋ ์ค์๋ ์ํ๋ง ์ ๋ต
์ด๋ก์จ **์ฝ๋ ์คํํธ(cold start)**๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ํ๋ จ ๊ณผ์ ์ ์ฒด์์ ๋ ์ฌ๊ณ ๋ชจ๋๋ฅผ ๋ชจ๋ ํ์(explore)ํ๊ณ ํ์ฉ(exploit)ํ ์ ์๊ฒ ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด AdaptThink๋ ์ถ๋ก (inference) ๋น์ฉ์ ํ์ ํ ์ค์ด๋ฉด์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํต๋๋ค. ํนํ ์ธ ๊ฐ์ง ์ํ ๋ฐ์ดํฐ์ ์์ DeepSeekโR1โDistillQwenโ1.5B์ ํ๊ท ์๋ต ๊ธธ์ด๋ฅผ 53% ๋จ์ถํ๊ณ , ์ ํ๋๋ฅผ 2.4% ํฅ์์ํค๋ฉฐ, ์ฌ๊ณ ๋ชจ๋(adaptive thinking-mode) ์ ํ์ ์ต์ ํํ์ฌ ์ถ๋ก ํ์ง๊ณผ ํจ์จ์ฑ์ ๊ท ํ์ ๋ง์ถ๋ ๋ฐ ํฐ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
โฌ ๏ธย ์ด์ ํ์ด์ง
โก๏ธย ๋ค์ ํ์ด์ง
https://arxiv.org/abs/2505.13417
https://github.com/THU-KEG/AdaptThink
<aside>
AdaptThink: Reasoning Models Can Learn When to Think
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
</aside>