Thinking with Images & Agentic Tool Use

“The eye sees only what the mind is prepared to comprehend.” —Robertson Davies

Background

DeepSeek-R1出现 (i.e., 一月份) 之后，很多工作开始尝试把文本里训练RL的方法迁移到视觉领域，通过RL训练VLM的CoT来复刻视觉模型的“aha moment”，由于CoT过程完全是用文本来推理的，大家对“aha moment”的预期还是会不会出现类似像wait、alternatively之类self-reflection的字眼，以及response length的上升是否伴随着评测集上acc的提升。
有没有一种可能，视觉推理的思考模式就应该是不同于文本推理的？
一个很明显的证据是：我们人在面对一个视觉类问题时，并不是看一遍图之后就在脑子里一通思考，而是会边看边想；甚至有些人天生具备visual thinking的能力，他们大部分的思考都是用以图像视觉的方式来展开的 (e.g., 几何题/迷宫，自行脑补辅助线)。相比之下，VLM的图片只有在一开始输入给模型时，由vision encoder一次性变成image embedding，之后图片就变成了纯静态的context，这种纯文本的思维方式在视觉domain是“有损”的。

Ability 1: Thinking with Images (让模型学会边看图边思考)

模型能在内部 chain-of-thought 中调用放大/裁剪/旋转等视觉操作。

Ability 2: Toward Agentic Tool Use (让模型学会调用工具)

模型能自主决策何时 (when) 以及如何 (how) 调用外部工具 (e.g., 浏览器、Python解释器、文件解析、图片生成、图片编辑)。

Advantages

这种灵活而具策略性的方式，使模型能够：