“The eye sees only what the mind is prepared to comprehend.”
—Robertson Davies
Background
Existing Gaps
- DeepSeek-R1出现 (i.e., 一月份) 之后,很多工作开始尝试把文本里训练RL的方法迁移到视觉领域,通过RL训练VLM的CoT来复刻视觉模型的“aha moment”,由于CoT过程完全是用文本来推理的,大家对“aha moment”的预期还是会不会出现类似像wait、alternatively之类self-reflection的字眼,以及response length的上升是否伴随着评测集上acc的提升。
- 有没有一种可能,视觉推理的思考模式就应该是不同于文本推理的?
- 一个很明显的证据是:我们人在面对一个视觉类问题时,并不是看一遍图之后就在脑子里一通思考,而是会边看边想;甚至有些人天生具备visual thinking的能力,他们大部分的思考都是用以图像视觉的方式来展开的 (e.g., 几何题/迷宫,自行脑补辅助线)。相比之下,VLM的图片只有在一开始输入给模型时,由vision encoder一次性变成image embedding,之后图片就变成了纯静态的context,这种纯文本的思维方式在视觉domain是“有损”的。
An Example from OpenAI o3 Blog (April 16th)

Ability 1: Thinking with Images (让模型学会边看图边思考)
模型能在内部 chain-of-thought 中调用放大/裁剪/旋转等视觉操作。
Ability 2: Toward Agentic Tool Use (让模型学会调用工具)
模型能自主决策何时 (when) 以及如何 (how) 调用外部工具 (e.g., 浏览器、Python解释器、文件解析、图片生成、图片编辑)。
Advantages
这种灵活而具策略性的方式,使模型能够:
- 获取最新信息 —— 不再受限于预训练阶段冻结的知识,而是按需调用外部信息,实时更新认知。
- 延展推理深度 —— 结合外部工具进行计算、检索与可视化,让多步链式思维更精准、更丰富。
Ongoing Trend
- 能“看” → 能“边看边想” → 能“边想边调用工具做事”
- 多模态输入+输出 → 多模态Agent
[Paper 1] Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought