全国首次！Nature发表！海淀新型研发机构智源研究院，发布大模型成果

2026-01-30 10:52 来源: 北京号

关注

1月28日，智源多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》（Nature），预计2月12日纸质版正式刊发，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

《自然》编辑点评这项研究：Emu3仅基于预测下一个词元（Next-token prediction），实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

从语言到多模态

Emu3以单一框架统一多模态生成与感知

据悉，2018年以来，GPT采用“预测下一个词元（Next-token prediction，NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。“预测下一个词元”彻底改变了语言模型，促成了如ChatGPT等突破性成果，并引发了关于通用人工智能（AGI）早期迹象的讨论。然而，其在多模态学习中的潜力一直不甚明朗。

▲Emu3 架构图

针对“自回归能否作为通用技术统一多模态学习”这一关键问题，智源团队提出了全新的多模态模型Emu3。该模型基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练一个单一的Transformer架构。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。

在多项性能测试中，Emu3展现出与专业模型相当的综合能力：在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，可以与融合CLIP和大语言模型的主流方案比肩。

此外，Emu3还具备视频生成能力。不同于Sora的扩散式视频生成，Emu3采用纯自回归方式逐词元（token）生成视频，能够在给定上下文下进行视频延展与未来预测，并在文本引导下生成高保真视频。此外，Emu3还可拓展至视觉语言交错生成，例如图文并茂的菜谱生成；也可拓展至视觉语言动作建模，如机器人操作VLA（视觉-语言-动作模型）等，进一步体现了“预测下一个词元”的通用性。

在此基础上，悟界·Emu3.5进一步通过大规模长时序视频训练，学习时空与因果关系，展现出随模型与数据规模增长而提升的物理世界建模能力，并观察到多模态能力随规模扩展而涌现的趋势，实现了“预测下一个状态”的范式升级。

智源这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。

坚持原始创新

智源持续引领大模型技术演进

悟界·Emu研究成果的发表，不仅是国际学术界对智源研究团队工作的认可，更是对人工智能原创技术路线的肯定。Emu系列模型自2022年启动研发以来，围绕“原生多模态”这一核心技术主线持续迭代，每一个版本都在关键能力与方法论上实现了实质性突破。

• 2022年6月，系统布局多模态大模型的研发。

• 2023年7月，发布并开源首个版本，成为最早打通多模态输入到多模态输出的统一多模态模型，创新性提出统一多模态学习框架并大规模引入视频数据，初步实现多模态自回归预测。

• 2023年12月，发布Emu2，通过大规模自回归生成式多模态预训练，展现出可泛化的多模态上下文学习能力，可在少量示例和简单指令下完成听、说、读、写、画等任务，是当时开源最大的生成式多模态模型。

• 2024年10月，发布Emu3，该模型只基于预测下一个词元，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

• 2025年10月，推出原生多模态世界模型Emu3.5，实现从 “预测下一个词元” 到 “预测下一个状态” 的能力跃迁，从长视频数据中学习世界演化规律，提出多模态Scaling新范式。

自2020年启动“悟道”大模型研究以来，智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月，智源发布新一代大模型系列“悟界”，旨在构建人工智能从数字世界迈向物理世界的关键能力，及物理世界的人工智能基座模型。

“成立七年来，智源聚焦人工智能技术前沿，挑战最基础的问题和最关键的难题，推进大模型技术不断演进。”智源研究院相关负责人表示，随着Emu等研究成果发表于Nature等国际顶级期刊，智源将继续围绕智能与物理世界的深层关联，推进面向下一代人工智能的科研创新。

记者：王萌

编辑：张斌

作者：

北京海淀官方发布

打开APP阅读全文

特别声明：本文为北京日报新媒体平台“北京号”作者上传并发布，仅代表作者观点，北京日报仅提供信息发布平台。未经许可，不得转载。