从“看懂”到“行动”，智源发布新一代世界模型Emu3.5

北京日报客户端 | 记者孙奇茹

2025-10-30 21:29

经济

10月30日，北京智源研究院发布“悟界·Emu3.5”多模态世界大模型，人工智能正从以语言为中心的学习模式，迈入对真实世界进行多模态感知、理解与交互的新纪元。

相比于传统大语言模型，新一代世界模型具备从“理解”到“行动”的更全面的智能能力，开始具备类似人类的物理直觉，能在更真实世界、更丰富的场景下展开探索。

与专注于内容生成的模型不同，Emu3.5的核心在于“理解、预测与规划”，它不仅能生成内容，还构建了一个内在世界模型的预测系统，能够从大规模多模态数据中学会意图解析、因果推理和多步行动路径规划的能力。

大模型理解、预测真实世界的能力有多重要？智源研究院院长王仲远举例道，当一杯咖啡放在桌子边缘，搭载了世界模型能力的机器人不仅能够看到有一个杯子在桌子上，还能判断出“杯子放得有点危险，很可能会随时掉落”这一未来情境，从而对自己下一步拿取咖啡杯的力度、方向进行调整。这种理解物理世界因果关系、对物理世界下一步将会发生的情境进行模拟的能力，正是多模态世界模型的关键能力。

具备学习现实世界物理动态与因果的能力后，Emu3.5开始展现出不少接近人类认知的能力。例如，在图像编辑任务中，它能根据要求精准识别并擦除图片中的手写内容；在视觉推理中，它能流畅地将平面图转化为俯视图，展现出对空间关系的准确理解。

尤为重要的是，Emu3.5模型还开始具备将特定场景中获得的认知和能力迁移到众多场景中的能力，也就是业界称之为“泛化”、通俗理解即“举一反三”的能力，而这都是具备真正“智能”所必不可少的。“比如在机器人叠衣服的任务中，过去只能采集到在干净的台子上叠衣服等有限场景中的数据，而通过世界模型，机器人能够在各种不同的环境中完成这项任务，甚至将相关能力用在火星救援等场景中，真正释放‘智能’的想象力。”智源研究院多模态大模型负责人王鑫龙透露，团队已开始将世界模型能力用于机器人任务规划中。

这些更接近真正智能的能力，是如何实现的呢？2024年10月，智源研究院发布了全球首个原生多模态世界模型Emu3，实现了文本、图像和视频模态的大一统。此次升级推出的Emu3.5，是在超过10万亿token（token是大模型中可以理解和生成的最小意义的单位）的大规模多模态数据基础上展开训练的，它不再像传统语言模型那样只预测“下一个词”，而是升级为预测“下一个状态”，技术人员将时长达790年的训练视频“喂养”给模型，并创新性地提出“离散扩散自适应”技术，这一高效的混合推理预测方法，在不牺牲性能的前提下将推理速度提升了近20倍，首次使自回归模型的生成效率媲美全球顶尖的闭源扩散模型。

“我们相信AI的下一次跃迁，将来自模型对现实世界的深层表征与可泛化行动指导的能力，AI正加速实现从数字世界迈向物理世界的关键一步。”王仲远说。

编辑：孙奇茹

打开APP阅读全文