“The eye sees only what the mind is prepared to comprehend.” —Robertson Davies

Background

Existing Gaps

An Example from OpenAI o3 Blog (April 16th)

image.png

Ability 1: Thinking with Images (让模型学会边看图边思考)

模型能在内部 chain-of-thought 中调用放大/裁剪/旋转等视觉操作。

Ability 2: Toward Agentic Tool Use (让模型学会调用工具)

模型能自主决策何时 (when) 以及如何 (how) 调用外部工具 (e.g., 浏览器、Python解释器、文件解析、图片生成、图片编辑)。

Advantages

这种灵活而具策略性的方式,使模型能够:

  1. 获取最新信息 —— 不再受限于预训练阶段冻结的知识,而是按需调用外部信息,实时更新认知。
  2. 延展推理深度 —— 结合外部工具进行计算、检索与可视化,让多步链式思维更精准、更丰富。

Ongoing Trend

  1. 能“看” → 能“边看边想” → 能“边想边调用工具做事”
  2. 多模态输入+输出 → 多模态Agent

[Paper 1] Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought