新突破!VideoWorld!解锁AI智能推理新范式!
2025-03-10 11:01 来源:  北京号
关注

AI能甩开“文字拐杖”

不依赖语言模型就能认知世界

通过看视频学习

能很快达到围棋职业5段

日前,北京交通大学

与豆包大模型团队

共同开发了视频生成实验模型

VideoWorld

业内首次实现无需依赖语言模型

即可认知世界

👍👍👍

VideoWorld可通过浏览视频数据

让机器掌握推理、规划和决策的复杂能力

无需依赖强化学习中

常见的搜索算法或奖励机制

目前,所有代码、数据和模型

均已开源

人工智能能否仅从视频中学习复杂的知识?

传统的多模态模型

通常依赖语言或标签数据来学习知识

使其能够处理需要

推理、提前规划和决策的复杂任务

然而仅靠语言无法捕捉所有形式的知识

也无法涵盖现实世界中的海量信息

例如折纸、打领结等复杂任务

较难通过语言清晰表达

在自然界中

生物主要通过视觉信息获取知识

而不是仅仅依赖语言

例如,大猩猩和其他灵长类动物

主要通过视觉观察

模仿成年动物的行为

学习觅食和社交等重要技能

北京交通大学计算机科学与技术学院

魏云超教授、博士生任中伟

豆包大模型团队的这项研究

已在顶级会议

IEEE国际计算机视觉与模式识别会议

CVPR 2025上发布

VideoWorld

视频生成实验模型

通过去除语言模型

可实现统一执行理解和推理任务

基于潜在动力学模型(LDM)

能够高效压缩视频帧间的变化信息

显著提升AI学习知识的效率和效果

其研究结果显示

仅有300M参数的情况下

VideoWorld已经取得了

可观的模型表现

在不依赖任何强化学习搜索

或奖励函数机制的前提下

VideoWorld达到了

专业5段9x9围棋水平

围棋实验环境下VideoWorld生成的内容。

所学围棋策略的可视化展示。该模型运用挤子战术和自我牺牲战术来吃掉对手的棋子。新落下的黑棋用红色表示,新落下的白棋用蓝色表示。

同时,在多种机器人场景中

VideoWorld成功地执行了各种控制任务

并表现出良好的数据缩放行为

VideoWorld在不同环境中控制机械臂。

执行CALVIN任务的可视化展示。

执行RLBench任务的可视化展示。

这意味着

VideoWorld可以像人类婴幼儿一样

虽不懂得语言

但能够通过观察周围的世界

认识世界的一些规律

甚至学习到高级的规划知识

例如通过浏览围棋高手对战的视频

慢慢地理解围棋的规则和策略

最终展现出不错的围棋能力

VideoWorld 探索了从无标签视频中学习知识,涵盖从特定任务规则到高级推理和规划能力的学习。与其他学习方法(强化学习(RL)、监督学习(SL)和基于文本的学习)相比,它具有三个优势:1)通过统一的视觉表示,对各种任务和界面具有更好的泛化能力;2)减轻了手动标注的负担;3)比文本描述能学到更丰富的现实世界信息。

VideoWorld的发布

为人工智能领域带来了新的可能性

特别是在视频生成自动驾驶

医疗影像等领域

视频生成方面,纯视觉认知模型可以更直观地理解和生成视频内容,减少对语言描述的依赖,提高生成效率和质量。在自动驾驶领域,车辆需要实时处理大量视觉信息,VideoWorld的技术可用于提升车辆对环境的理解和决策能力。在医疗影像分析中,模型能够通过学习大量医学影像数据,辅助医生进行诊断和治疗规划。模型目前处于实验阶段。

项目负责人魏云超教授表示

VideoWorld应用效果

还需要基于更大的算力

在更大规模的数据上进行验证

但这个工作最大的价值是

在大语言模型主导智能推理研究范式的背景下

它从纯视觉的角度提供了一种不同思路

虽然目前还处于概念验证阶段

但其突破性尝试和相关结论

却有可能给未来人工智能技术演进

提供启发性路径

魏云超教授作为唯一一位计算机视觉领域的学者入选2021年中国区“35岁以下科技创新35人”榜单。

项目组成员任中伟博士

(VideoWorld论文第一作者)

表示:把VideoWorld

用到真实场景中

未来还需要在数据、算力和模型方面

继续做提升

经过不断的“思考、交互”循环中

可以让模型有更强大的感知

更强大的理解和推理能力

这条路任重而道远

但是充满希望和曙光

VideoWorld论文提出潜在动力学模型(LDM),它提高了视频学习的效率和效果,同时提供了一种探究模型所学知识的机制。

据项目负责人靳潇杰博士

(字节跳动研究员、VideoWorld项目负责人)

介绍

现在大模型领域呈现出

百家争鸣、百花齐放的态势

Openai首先把这条路做通了

同时我们也可以看到

国产模型进展得非常快

但距离我们想要达到的

通用智能或者超级智能

还有很大的空间

我们需要去不断探索创新

优秀的团队和优秀的交大人

一起来认识他们吧!

魏云超

VideoWorld项目负责人

北京交通大学教授

博士生导师

计算机科学与技术学院

副院长

国家高层次人才计划获得者。曾在新加坡国立大学、美国伊利诺伊大学厄巴纳-香槟分校、悉尼科技大学从事研究工作。入选MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star;曾获世界互联网大会领先科技奖(2023)、教育部高等学校自然科学奖一等奖(2022)、中国图象图形学学会科技技术奖一等奖(2019)、澳大利亚研究委员会青年研究奖(2019)、IBM C3SR最佳研究奖(2019)、计算机视觉世界杯ImageNet目标检测冠军(2014)及多项CVPR竞赛冠军;发表TPAMI、CVPR顶级期刊/会议论文100多篇,Google引用超25000次。目前主要研究方向包括面向非完美数据的视觉感知、多模态数据分析与推理、生成式人工智能等。

任中伟

VideoWorld项目组成员

北京交通大学

计算机科学与技术学院博士生

师从魏云超教授

目前在豆包大模型团队实习,由靳潇杰博士指导。实习期间在CVPR顶级会议上发表多篇论文,并受邀担任了CVPR,ICCV等多个顶级会议审稿人。主要研究方向包括多模态感知与推理、世界模型、视频生成等。

靳潇杰

VideoWorld项目负责人

新加坡国立大学博士

字节跳动研究员

技术负责人

任职于字节跳动豆包大模型团队,曾获包括计算机视觉领域著名学术竞赛ImageNet在内的多项赛事冠军,开发的模型被著名深度学习框架Keras官方集成。发表 IEEE TPAMI,CVPR,ICML 等顶级期刊/会议论文40余篇,Google引用超4700次。在字节跳动期间,主持开发成果二十余项,已应用于十多个旗舰产品/服务中,获授权专利10+余项。主要研究方向包括多模态感知与推理、世界模型、视频生成和编辑等。

魏云超教授课题组北京交通大学计算机科学与技术学院

聚焦多模态数据分析与推理、生成式人工智能等前沿方向,主持国家自然科学基金重大研究计划重点项目、国家重点研发计划青年科学家项目等10余项科研项目,并支撑了“视觉智能交叉创新”教育部国际合作联合实验室,“科幻音视频智能处理”北京市重点实验室,“多模态感知与智能交通”创新引智基地(“111基地”)三大科研平台的建设。魏云超教授课题组隶属于赵耀教授负责的数字媒体信息处理研究团队,自其2021年归国以来同赵耀教授一道在科学研究、人才培育、项目获批、平台建设等方面做出突出贡献。

此前,我校计算机科学与技术学院

赵耀教授、魏云超教授、韦世奎教授

科研成果

“视觉媒体的层次化内容感知”

获得2023世界互联网大会领先科技奖

北京交通大学赵耀教授在世界互联网大会现场发布领先科技成果:视觉媒体的层次内容感知。

VideoWorld项目官网:

https://maverickren.github.io/VideoWorld.github.io/?utm_source=ai-bot.cn

期待我校计算机视觉在精细化感知与生成方面

收获更多成果!

智启未来,敢为人先

勇做0到1的破壁者

为科技创新贡献交大力量!

来源 | 北京交通大学官方微信

编辑 | 雷子轩


作者:

北京交通大学

打开APP阅读全文
特别声明:本文为北京日报新媒体平台“北京号”作者上传并发布,仅代表作者观点,北京日报仅提供信息发布平台。未经许可,不得转载。