1月28日,智源多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》(Nature),预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
从语言到多模态
Emu3以单一框架统一多模态生成与感知
据悉,2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。“预测下一个词元”彻底改变了语言模型,促成了如ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。

▲Emu3 架构图
针对“自回归能否作为通用技术统一多模态学习”这一关键问题,智源团队提出了全新的多模态模型Emu3。该模型基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer架构。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。

在多项性能测试中,Emu3展现出与专业模型相当的综合能力:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。

此外,Emu3还具备视频生成能力。不同于Sora的扩散式视频生成,Emu3采用纯自回归方式逐词元(token)生成视频,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频。此外,Emu3还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,如机器人操作VLA(视觉-语言-动作模型)等,进一步体现了“预测下一个词元”的通用性。
在此基础上,悟界·Emu3.5进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。

智源这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。
坚持原始创新
智源持续引领大模型技术演进
悟界·Emu研究成果的发表,不仅是国际学术界对智源研究团队工作的认可,更是对人工智能原创技术路线的肯定。Emu系列模型自2022年启动研发以来,围绕“原生多模态”这一核心技术主线持续迭代,每一个版本都在关键能力与方法论上实现了实质性突破。
• 2022年6月,系统布局多模态大模型的研发。
• 2023年7月,发布并开源首个版本,成为最早打通多模态输入到多模态输出的统一多模态模型,创新性提出统一多模态学习框架并大规模引入视频数据,初步实现多模态自回归预测。
• 2023年12月,发布Emu2,通过大规模自回归生成式多模态预训练,展现出可泛化的多模态上下文学习能力,可在少量示例和简单指令下完成听、说、读、写、画等任务,是当时开源最大的生成式多模态模型。
• 2024年10月,发布Emu3,该模型只基于预测下一个词元,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。
• 2025年10月,推出原生多模态世界模型Emu3.5,实现从 “预测下一个词元” 到 “预测下一个状态” 的能力跃迁,从长视频数据中学习世界演化规律,提出多模态Scaling新范式。

自2020年启动“悟道”大模型研究以来,智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列“悟界”,旨在构建人工智能从数字世界迈向物理世界的关键能力,及物理世界的人工智能基座模型。
“成立七年来,智源聚焦人工智能技术前沿,挑战最基础的问题和最关键的难题,推进大模型技术不断演进。”智源研究院相关负责人表示,随着Emu等研究成果发表于Nature等国际顶级期刊,智源将继续围绕智能与物理世界的深层关联,推进面向下一代人工智能的科研创新。
记者:王萌
编辑:张斌