标题:豆包手机第三方黑盒测试技术报告

【叠甲】

利益无关,纯个人技术兴趣驱动。本人不认识豆包的同学,本人也不做GUI-Agent(2025年了还在做Reasoning),唯一可能的粘连是用CK-Pro的Web Agent里面用了Playwright。

本文所有结论均基于对自有设备的 Black-box Stress Testing 与一部分Arxiv Paper的逻辑推演,不代表官方实际实现,所以里面可能有胡言乱语的幻觉,见谅。

【前言】

上手测了几天 Cases。一方面,看到了巨大的工程量,另一方面,社媒上出现了极多的安全争论,按下不表,我们是技术报告。

简单来说,这不仅仅是一个 App,字节是在 Android Framework 层做了一套 OS 级的影子系统。

下面开始碎碎念,主要观察如下:

  1. 两套模式:System 1 (Intuition) vs. System 2 (Reasoning)

最有意思的设计是它把 Agent 拆成了两套 Stack:标准模式和 Pro 模式。这不仅仅是模型大小的区别,而是完全不同的两套 Pipeline。

【Testbed / 任务设定】

两个模式,Fast 和 Pro。

【备注:仍有可能被欺骗,可能并没有传入当前界面的xml,在此情景下仍可能是纯vision方案】

  1. 感知层的混合路由 (Hybrid Perception Router)