一、执行摘要

把3D Gaussian Splatting(3DGS)路线、以及这轮新补充的 simulator-as-supervision 与 embodied real-to-sim-to-real 证据放在一起看,2025–2026 年已经出现了一个相当明确的判断:仿真数据、物理模拟数据与高质量 synthetic data 不再只是训练集的廉价补丁,而正在成为视觉大模型、多模态大模型、视频模型与具身模型的结构性能力来源。 这个判断不是建立在单篇论文上,而是建立在多条相互支撑的证据链上:它们分别证明 synthetic / simulation data 可以显著改善物理一致性、未来状态预测、直觉物理理解、组合泛化、文本密集视觉理解、垂直领域预训练、持续学习稳定性、3D 场景表征学习,以及 sim-to-real transfer gap。

更重要的是,变化并不只在“量”。从 PhysInOne、Scene Dynamic Field、Medical Synthetic MedVLP、SPARCL、CoSyn,到 SceneSplat、SceneSplat++、Generative Gaussian Splatting、EmbodiedSplat 与 ReaDy-Go,可以看到合成数据的价值正从 data augmentation 升级为 structured capability injection,甚至进一步升级为 trainable world interface。也就是说,真正有价值的不是 synthetic data 更便宜,而是它能以真实世界数据难以稳定提供的方式,把物理规律、长尾关系、文本结构、三维一致性、视角约束、动态障碍、场景语义和环境特异性注入训练流程。

在产业端,合成数据生成(SDG)已经成为企业级 AI 战略的核心。全球领先的技术提供商和咨询机构的数据表明,SDG 市场正以超过 30% 的年复合增长率扩张。到 2030 年,AI 模型中合成数据的使用量预计将超过真实数据。企业客户正通过采用合成数据方案,在自动驾驶、具身智能、医疗健康和工业制造等领域实现高达 70% 的数据准备成本节约,同时规避了真实数据带来的隐私与合规风险。

2025–2026 的核心变化,不仅是“大家开始用 synthetic data”,而是 synthetic data 正在从样本层,上升为企业 AI 基础设施、表示层与监督层。

二、全球 SDG 市场规模与产业增长趋势

合成数据生成市场正在经历爆发式增长,这主要由数据隐私法规的收紧、真实数据采集成本的高昂以及 AI 模型对多样化训练数据需求的急剧增加所驱动。

根据 Fortune Business Insights 的数据,2025 年全球合成数据生成市场规模约为 6.03 亿美元,预计到 2034 年将增长至 69.05 亿美元,预测期内复合年增长率(CAGR)高达 31.10% [1]。而在中国市场,根据沙利文发布的《2025年中国合成数据解决方案发展洞察》,市场规模从 2021 年的 11.8 亿元人民币迅速扩张至 2025 年的 47.6 亿元人民币,预计 2025-2030 年的 CAGR 将达到 33.8%,到 2030 年全球市场规模将突破 200 亿元人民币 [2]

Gartner 的权威预测进一步证实了这一趋势:到 2024 年,超过 60% 的 AI 模型训练数据将是合成数据(相比 2021 年仅占 1%),而到 2030 年,合成数据将全面超越真实数据,成为 AI 训练的主导数据源 [3]

预测机构 当前市场规模/采用率 未来预测与增长率 核心洞察
Fortune Business Insights 2025年 6.03 亿美元 2034年 69.05 亿美元 (CAGR 31.10%) 表格数据增长最快,北美市场目前占据主导地位 (35.99%)
沙利文 (Frost & Sullivan) 2025年 47.6 亿元人民币 (中国) 2030年突破 200 亿元人民币 (CAGR 33.8%) 合成数据将转向“1%人类数据+99%高效合成”的混合模式
Gartner / Vention 2026年企业采用率达 46% 2030年合成数据将占 AI 训练数据的绝大多数 75% 的企业将在 2026 年使用 GenAI 创建合成客户数据

三、企业采用合成数据的核心 ROI 与业务价值

对于企业客户而言,转向合成数据不仅仅是技术路径的演进,更是显著的降本增效和风险规避手段。

1. 极具破坏性的成本节约(Cost Reduction)

传统的人工数据标注成本高昂,根据复杂度的不同,每条标注成本在 $0.50 到 $5.00 之间。在医疗等高门槛领域,需要执业医师参与的 QA 标注成本甚至高达 $50 到 $100 每条。相比之下,合成数据的生成速度比人工标注快 50 倍。行业报告显示,采用合成数据解决方案可以为企业带来高达 70% 的数据准备和测试成本降低 [4]

2. 突破长尾场景与罕见案例(Edge Cases)瓶颈

在自动驾驶和具身智能等领域,收集真实世界中的危险或罕见场景(如极端天气、连环车祸)不仅成本极高,且存在安全风险。通过仿真平台(如 NVIDIA Omniverse 和 Waymo World Model),企业可以无限制地生成这些边缘案例。Waymo 已经在仿真环境中行驶了超过 200 亿英里,以识别其车辆在公共道路上可能遇到的最具挑战性的情况 [5]

3. 解决隐私与合规痛点(Privacy & Compliance)

随着 GDPR、CCPA 和 HIPAA 等数据保护法规的实施,直接使用真实用户数据面临巨大的法律风险。合成数据保留了原始数据的统计特征,但不包含任何真实的个人可识别信息(PII)。这使得金融(BFSI)和医疗健康等对隐私要求极高的行业能够安全地进行模型训练、数据共享和算法交易。例如,SoftBank 已经开发了带有差分隐私保护的合成数据管线,用于其行业大模型的安全训练 [6]

四、主要行业的企业采用案例

行业领域 核心痛点 合成数据解决方案与案例 业务收益
自动驾驶与出行 真实道路测试无法覆盖所有危险和极端场景,传感器数据采集昂贵。 Waymo 推出 World Model,利用数十亿英里的仿真数据训练模型;Tesla 使用 Unreal Engine 生成合成训练数据。 显著降低物理测试风险,模型能更好地应对长尾路况,加速 FSD 系统迭代。
具身智能与机器人 人类演示数据收集困难,机器人跨环境泛化能力差。 NVIDIA 推出 Isaac GR00T-Dreams 和 GR00T-Mimic,通过少量人类演示生成海量合成轨迹数据。 机器人可在未见过的环境中零样本学习新任务,减少对真实硬件的依赖。
工业制造 生产线数据难以大规模采集,缺陷样本稀缺。 BMW 和 Siemens 部署全面数字孪生(Digital Twin),在物理生产前进行系统建模和模拟。 BMW 通过虚拟工厂和合成数据使工厂运营效率提升了 20%。
医疗健康 患者数据隐私受限,罕见病样本极少,专家标注成本极高。 使用合成图像和文本对(如 Medical Synthetic MedVLP)进行医疗视觉语言预训练。 纯合成数据训练的模型在 AUC 指标上甚至超越了仅使用真实数据的模型。