第12期：2025–2026 年仿真 / 合成数据促进视觉大模型训练的研究报告

一、执行摘要

现有证据支持一个比前版更克制、也更稳健的判断：在 无人机、自动驾驶 / FSD、机器人 / 具身智能 这三类强闭环行业中，仿真体系正在从“离线 synthetic data 的补充来源”演化为 训练接口层、后训练数据回收层、环境编译层与部署中介层。[1] [3] [6] [7] [8] [9] [21] [23] 这一变化并不意味着所有 synthetic data 论文都应被置于同一证据等级之上，而是意味着必须把注意力集中到那些直接进入训练、微调、rollout recycling、counterfactual adaptation、digital twin mediation 或 simulator-in-the-loop policy learning 的工作上。[6] [7] [8] [21] [22] [23]

从仿真体系角度看，当前更有解释力的研究框架不是简单区分“真实数据”与“合成数据”，而是把系统拆解为五个层次：世界表示层、场景生成层、传感器 / 动力学层、数据回收与后训练层、部署中介层。[1] [2] [3] [6] [8] [9] [21] [22] [25] 在无人机领域，相关研究已从任务定义和 realistic simulator，推进到 3DGS 场景、可控光照随机化、end-to-end VLA continuous control，以及 sim+real 一体化训练管线。[1] [2] [13] [14] [15] [17] 在自动驾驶领域，仿真更明确地承担起 closed-loop data engine、counterfactual curation 与 on-policy training substrate 的角色。[3] [6] [21] [23] 在机器人领域，digital twin、Gaussian-based environment compilation、scene generation 和 simulation-ready assets 则共同推动仿真从离线训练环境转向训练—评测—部署一体化中间层。[7] [8] [9] [22] [25]

因此，本版报告的核心改动有三点。第一，收紧纳入标准，只保留或优先保留与三类行业训练主链路直接相关的工作。第二，按仿真体系分层重构论证，而不是继续堆叠泛 synthetic data 成功案例。第三，要求表格中的每一项研究都附明确引用，并把“直接训练增益证据”与“训练基础设施证据”严格区分，以降低误判风险。[3] [6] [7] [21] [22] [23]

二、问题重述：为何需要从“仿真体系”而不是“合成数据”来重写

如果研究问题仅仅是“synthetic data 是否对视觉大模型有帮助”，那么许多医疗影像、多模态检索、文本密集视觉理解和文档场景的工作都可被纳入证据链。然而，这样的回答并不能解释无人机、FSD 与机器人等 physical AI 行业的真正变化。对这些行业而言，更关键的问题是：仿真是否已经进入模型训练与部署的主回路，并在系统结构上改变了数据供给、训练编排和部署反馈的方式。[1] [3] [6] [7] [8] [21] [23]

因此，本版报告采用更严格的定义。这里所说的“仿真体系”，不只是指一个视觉上逼真的 simulator，也不只指单次 synthetic dataset 生成流程，而是指一套可分解的系统：它包括世界表示、场景生成、传感器与动力学近似、交互式 rollout、反事实数据生成、数字孪生同步，以及对真实部署的中介机制。[1] [2] [6] [8] [9] [21] [22] [23] 只有在这些模块中至少有一部分直接进入训练或后训练回路时，相关工作才进入本报告的核心矩阵。

三、筛选标准与证据等级

维度	纳入标准	不优先纳入的情况
行业范围	必须直接属于无人机、自动驾驶 / FSD、机器人 / 具身智能，或作为这三类行业的横向仿真方法层证据	纯通用 VLM、文档理解、医疗影像等与目标行业训练链路联系不直接的工作
训练链路	仿真、3DGS、数字孪生、场景生成、simulation-ready assets、world model 或 closed-loop rollout 必须进入训练、后训练、评测闭环或部署中介	只做渲染展示、静态可视化或泛背景增强
证据类型	优先真实部署、sim-to-real、closed-loop 指标、成功率、driving score、collision、任务完成度、generalization 等结果	只有概念性主张、没有下游指标或没有系统方法说明
来源质量	优先顶会、arXiv 上可核验全文、高质量项目页或机构论文页面	单纯营销材料或没有技术细节的宣传口径

证据等级 A 表示“直接训练或后训练增益证据”，B 表示“训练基础设施或评测基础设施证据”，C 表示“启发性外围证据，本版尽量不进入核心矩阵”。

四、仿真体系分层：本版报告补入的关键遗漏维度

与前版相比，本版新增并强调了四类此前论述不足的系统层。

系统层	本层回答的问题	本版新增或强化的代表证据	为何重要
场景生成层	训练世界是否只能重建真实场景，还是可以主动生成任务相关的训练分布	SAGE [22]	解释仿真为何不仅是“回放已有世界”，而是“构造训练分布”
传感器 / 动力学层	sim-to-real 差距是否通过动力学、光照或控制建模被显式压缩	GRaD-Nav [1]、Zero-Shot UAV Navigation in Forests via Relightable 3DGS [2]	说明仿真 fidelity 不是抽象概念，而是具体影响策略学习的系统变量
数据回收与后训练层	闭环 rollout、反事实轨迹和 on-policy 仿真是否被重新加工为后训练燃料	RoaD [6]、Learning to Drive from a World Model [21]、MPA [23]	解释自动驾驶为何从“仿真评测”走向“仿真驱动的数据引擎”
资产层	用于训练的对象、关节与物理属性是否能被自动生成并直接接入模拟器	PhysX-Anything [25]	补足机器人训练体系中常被忽略的“可交互资产供给层”

五、行业聚焦版核心证据矩阵（按仿真体系重构）

行业	系统层	研究	时间	仿真如何进入训练链路	技术方法要点	下游任务	可直接引用的关键证据	证据等级	研究定位
无人机	任务与模拟器起点	AerialVLN [13]	2023	建立 UAV-based outdoor VLN 任务，并提供 city-level 3D simulator 作为训练与评测底座	把地面 VLN 问题提升到 aerial setting，显式引入 flying height 与更复杂的空间关系推理	UAV vision-language navigation	论文给出由 25 个 city-level scenarios 构成的 3D simulator，并展示 baseline 与人类之间仍有显著差距 [13]	B	更适合被视为研究谱系起点，而非直接训练增益证据
无人机	realistic substrate	OpenUAV [14]	2024–2025	以 realistic UAV trajectory simulation platform 作为主底座，在其上构建 benchmark、dataset 与 UAV navigation 方法	强调 realistic flight control、多样环境与 assistant-guided object search，不再简单复用地面 VLN 设定	realistic UAV VLN	平台上构建约 12k trajectories 的 target-oriented VLN dataset，并报告方法显著优于 baseline，但仍与 human operators 存在差距 [14]	A	无人机 realistic VLN 的基础设施升级证据
无人机	传感器 / 动力学层	GRaD-Nav [1]	2025	3DGS 场景直接作为视觉输入环境；differentiable drone dynamics 与 DDRL 共同训练策略	把 3D Gaussian Splatting、可微动力学、runtime context estimation 和 sample-efficient RL 组合到同一训练闭环中	vision-based drone navigation	摘要明确报告真实无人机硬件实验实现 zero-shot sim-to-real transfer，无需 fine-tuning，并能适应未见任务实例 [1]	A	证明 3DGS 已经进入无人机策略训练主链路
无人机	VLA 方法层	AerialVLA [15] [16]	2026	建立在既有 UAV benchmark / simulator 之上的 end-to-end VLA continuous control 方法	依托 AirSim 与 TravelUAV，使用 dual-view perception、fuzzy directional prompting 与 unified 3-DoF command space	UAV vision-language-action navigation	在 TravelUAV benchmark 的 seen 环境达到 SOTA，并在 unseen 场景取得接近三倍于领先 baseline 的成功率 [15] [16]	A	无人机从 VLN 走向端到端 VLA continuous control 的代表证据
无人机	sim+real 训练编排层	AutoFly [17] [18]	2026	构建 autonomous UAV navigation dataset，并以 sim+real 一体化 pipeline 训练 end-to-end VLA model	通过 pseudo-depth encoder 与 progressive two-stage training 对齐 vision、depth、language 与 action policy	UAV autonomous navigation in the wild	相较于 SOTA VLA baselines，成功率提升 3.9%，且在 simulated 与 real environments 中表现一致 [17] [18]	A	无人机主线中最接近产品化训练管线的强证据之一
无人机	可控随机化世界表示层	Zero-Shot UAV Navigation in Forests via Relightable 3DGS [2]	2026	真实数据支撑的高保真 3DGS 仿真环境直接训练 end-to-end RL policy	将光照从几何中解耦，使训练中可系统生成 sunlight / overcast 等照明变化	forest UAV navigation	真实世界实验中，无微调部署到复杂森林场景，最高速度达 10 m/s，并表现出 collision-free navigation 与对剧烈光照变化的鲁棒性 [2]	A	说明 illumination-randomized 3DGS 已可作为 sim-to-real 的关键接口层
自动驾驶 / FSD	synthetic log generation + closed-loop evaluation	Unraveling the Effects of Synthetic Data on End-to-End Autonomous Driving / SceneCrafter [3]	2025	3DGS-based AD simulator 同时承担 synthetic data generation 与 robust closed-loop evaluation	作者明确指出传统 game-engine 模拟器、NeRF 和 diffusion 路线各有瓶颈，转而构建 realistic、interactive、efficient 的统一仿真器	end-to-end autonomous driving	摘要明确指出 SceneCrafter 既是 reliable evaluation platform，也是 efficient data generator，并且能显著提升 end-to-end model generalization [3]	A	自动驾驶中“仿真同时服务训练与评测”的关键证据
自动驾驶 / FSD	closed-loop generative simulator	DriveArena [4]	2025	生成式世界模型与 traffic manager 组成闭环仿真 arena，供 driving agent 运行、测试与开发	包含全球街道地图上的 realistic traffic flow 生成模块与无限自回归 world model	closed-loop driving evaluation and development	摘要将其定义为面向真实场景 driving agents 的 high-fidelity closed-loop simulation system，支持使用真实图像输入的 driving agent 在闭环场景中运行 [4]	B	更适合作为训练土壤与闭环基础设施证据
自动驾驶 / FSD	神经重建仿真底座	HUGSIM [5]	2025–2026	真实世界重建场景组成 real-time、photo-realistic、closed-loop simulator，支撑模型评测与闭环研究	ego 与其他 actors 会随 control commands 动态更新位置和观测，形成完整 closed loop	autonomous driving closed-loop benchmark	项目页给出 70+ sequences 与 400+ varying scenarios 的 benchmark，覆盖 KITTI-360、Waymo、nuScenes 与 Pandaset [5]	B	为后续 3DGS-based driving adaptation 提供底座
自动驾驶 / FSD	rollout recycling / 后训练层	RoaD [6]	2026	闭环仿真中的 policy rollouts 被回收为 demonstrations，用于 closed-loop supervised fine-tuning	先让 policy 在闭环仿真中 rollout，再用 expert guidance 修正行为，将其回收为监督数据，而非直接依赖高成本 RL	closed-loop end-to-end driving	在高保真 neural reconstruction-based simulator 中，driving score 提升 41%，collisions 降低 54%，且数据需求远低于 RL [6]	A	“rollouts as training fuel”的代表性强证据
自动驾驶 / FSD	on-policy simulator / 训练编排层	Learning to Drive from a World Model [21]	2025	利用真实驾驶数据，在 on-policy simulator 中训练 driving policy；同时比较 reprojective simulation 与 learned world model simulation	把 plan model、future anchoring 与 world model simulation 纳入统一的 end-to-end training architecture	ADAS / end-to-end driving policy	论文明确提出使用 real driving data to train a driving policy in an on-policy simulator，并报告策略可在 closed-loop simulation 中评测并部署到 real-world ADAS [21]	A	补足自动驾驶中“仿真作为训练编排架构”的直接证据
自动驾驶 / FSD	反事实数据回收层	Model-Based Policy Adaptation (MPA) [23]	2025	以 3DGS-based driving simulation data engine 生成 diverse counterfactual trajectories，用于 closed-loop policy adaptation	通过 diffusion-based policy adapter 处理 observation mismatch，以 Q-value model 处理 objective mismatch	closed-loop end-to-end driving	论文明确写到 experiments on nuScenes using a photorealistic closed-loop simulator demonstrate significant gains across in-domain、out-of-domain 和 safety-critical scenarios [23]	A	说明仿真不仅能回放，也能系统地产生反事实后训练数据
自动驾驶 / FSD	评测—训练边界层	Pseudo-Simulation for Autonomous Driving [24]	2025	基于真实数据集并用 3DGS 生成潜在未来观测，以近似闭环误差恢复过程	通过 position、heading、speed 多样化 synthetic observations 与 proximity-based weighting scheme 逼近闭环评测	AV evaluation substrate	其评测结果与 closed-loop simulations 的相关性达到 R²=0.8，高于最佳 open-loop 方法的 R²=0.7 [24]	B	不是直接涨点论文，但能解释 3DGS 如何重塑闭环近似评测土壤
机器人 / 具身智能	sim-real 共训层	Sim-and-Real Co-Training [7]	2025	仿真数据与真实机器人数据共同进入 policy co-training，而不是只做离线增强	系统研究 vision-based robotic manipulation 中的 sim-and-real co-training recipe，并在 robot arm 与 humanoid 两类 domain 上验证	vision-based robotic manipulation	摘要明确给出：simulation data 让 real-world task performance 平均提升 38%，即便 simulation 与 real-world data 存在明显差异 [7]	A	机器人行业中最直接的“仿真提高真实任务表现”证据之一
机器人 / 具身智能	部署中介层	Real-is-Sim [8]	2025	动态数字孪生常驻训练—评测—部署闭环；policy 始终作用在 simulated robot 上	使用 60Hz 同步的 dynamic digital twin 与 Embodied Gaussian simulator 作为中介，把 sim-to-real gap 的负担转移到 twin synchronization	long-horizon manipulation	论文在 PushT 任务上证明 virtual evaluations 与 real-world results 一致，并展示如何用 virtual rollouts 增强 real-world data [8]	A	说明 simulation 已不只是训练场，而是在线运行时中间层
机器人 / 具身智能	环境编译层	EmbodiedSplat [9]	2025	把个人部署环境重建为 Gaussian Splats，再接入 Habitat-Sim 训练导航策略	通过 mobile capture、Gaussian Splat reconstruction 与 Habitat-Sim 形成 personalized real-to-sim-to-real pipeline	real-world image navigation	真实 Image Navigation 上，相比 HM3D zero-shot baseline 成功率绝对提升 20%，相比 HSSD synthetic baseline 提升 40%；sim-vs-real correlation 为 0.87–0.97 [9]	A	证明 3DGS 可以快速把真实部署场景编译成策略训练场
机器人 / 具身智能	动态环境合成层	ReaDy-Go [10]	2026	dynamic 3DGS 环境生成器进入导航训练，显式建模动态人类障碍物	由 static scene GS 与 dynamic human GS obstacles 共同构成 environment-specific simulation pipeline	environment-specific visual navigation	作者报告其在 simulation 与 real-world experiments 中均优于 baseline，并在 moving obstacles 与 zero-shot unseen environment 设置下保持更强表现 [10]	B	说明 3DGS 正从静态重建推进到动态训练环境合成
机器人 / 具身智能	场景生成层	SAGE [22]	2026	从 embodied task prompt 自动生成 simulation-ready scenes，并自动合成 demonstrations 用于 imitation learning	通过 visual critic 与 physics critic（含 Isaac Sim simulator-in-the-loop validation）持续修正，并做 multi-level augmentation 扩大训练分布	mobile manipulation / pick-and-place	论文明确写到 policies trained purely on this data exhibit clear scaling trends，并对 unseen objects and layouts 有更强 generalization [22]	A	补上“训练世界分布可被主动生成”的关键系统层证据
机器人 / 具身智能	simulation-ready asset 层	PhysX-Anything [25]	2025–2026	从单张真实图像生成可直接进入模拟器的 articulated physical 3D assets，并用于接触式机器人学习	提出物理 3D 生成模型与 PhysX-Mobility 数据集，显式建模 geometry、articulation 与 physical attributes	contact-rich robotic policy learning	论文指出 PhysX-Mobility 含 2K+ common real-world objects，类别规模较既有 physical 3D datasets 扩展超过 2 倍；并报告 MuJoCo-style simulation 中可直接用于 contact-rich robotic policy learning [25]	A	补足机器人训练体系中经常被忽略的“可交互资产供给层”
横向方法层	3DGS-native pretraining	SceneSplat [11]	2025	3DGS-native 大规模数据集直接进入 vision-language pretraining	以 Gaussian-native scene 表示做 3D 语义学习与预训练底座，而非传统 mesh 或 point cloud	3D scene understanding / VLM pretraining	SceneSplat-7K 含 7,916 scenes、11.27B gaussians、4.72M RGB frames；在 ScanNet200 上提升 5.9% f-mIoU，在三源训练下对 ScanNet++ 提升 10.4% f-mIoU [11]	A	证明 3DGS 已开始成为 3D foundation training 的原生输入格式
横向方法层	synthetic world integration	SceneSplat++ / GaussianWorld-49K [12]	2025–2026	把包括 Hypersim 与 Aria Synthetic Environments 在内的大规模 synthetic environments 整合为 3DGS 训练底座	把程序生成环境与 language Gaussian Splatting 结合，形成可扩展的 3D semantic model 训练供给层	generalizable 3D semantic model training	GaussianWorld-49K 含约 49K scenes，正文明确纳入 Hypersim 与 Aria Synthetic Environments，其中 ASE 约含 25K procedurally generated scenes [12]	B	证明 3DGS 正在成为 synthetic worlds 的中间标准层候选
横向方法层	physics supervision layer	Physics Context Builders [19]	2025	simulation 不是生成图像，而是生成 physical contexts，作为 VLM 监督与知识注入层	把仿真压缩为模块化 physics contexts，用于补足 VLM 在反事实与物理推理上的缺口	physical reasoning in VLMs	在 CLEVRER 与 Falling Tower 上，复杂物理推理任务平均准确率最高提升 13.8%，并表现出 strong sim-to-real transfer [19]	A	虽然不属于单一行业，但对 physical AI 的监督构造方式具有横向意义
横向方法层	physical video data engine	PhysInOne [20]	2026	物理仿真视频直接作为视频模型训练集，改善未来状态建模与物理一致性	通过大规模动态 3D 场景仿真，把真实世界难以系统覆盖的长尾物理交互转化为可训练样本	video generation / physical future prediction	包含 200 万视频、153,810 个动态 3D 场景；SVD 的 PMF 从 2.753 提升到 3.147，FVD 从 203 降到 143；Wan2.2-5B 的 PMF 从 2.041 提升到 2.978 [20]	A	为 FSD world model、机器人预测模型与无人机动态建模提供底层数据引擎启发

六、三条行业主线在仿真体系层面的含义

6.1 无人机：从任务模拟器走向 sim+real 一体化训练管线

无人机主线已经形成较清晰的谱系结构。AerialVLN 与 OpenUAV 主要解决的是任务定义、模拟器底座、benchmark substrate 与 realistic flight control 的问题。[13] [14] 在此基础上，GRaD-Nav 与 Relightable 3DGS forest UAV 进一步表明：一旦世界表示可以同时承载高保真视觉与关键可控变量，例如动力学和光照，3DGS 便会从重建技术转化为 sim-to-real policy learning interface。[1] [2]

AerialVLA 与 AutoFly 则表明无人机路线正在向更贴近部署形态的 end-to-end VLA continuous control 收敛。[15] [16] [17] [18] 这意味着在无人机行业，仿真的价值已不止于提供离线样本，而在于支撑 continuous control、control-space alignment、sim+real co-training 与 physical deployment 的统一训练管线。[1] [2] [15] [17]