日前,北京通用人工智能研究院(以下简称“通研院”)发布OmniXtreme(通极)框架,成功让机器人学会包括后空翻、托马斯全旋、武术踢击在内的数十种高动态“极限运动”,并在机器人上实现了真实世界的高成功率部署,通极成为首个可以执行各种极限动作的通用策略,达成只执行一套算法,即可实现各种动作的能力。
机器人可以通过大量仿真训练逐渐学会复杂动作,也能将单个高难度动作做得很精准。但当动作库不断扩大,让机器人完成翻腾、倒立、霹雳舞等高动态、高协调性的复杂动作时,一个新的问题逐渐显现:学习的动作越多,控制精度越容易下降。通研院团队提出了一种新的训练框架OmniXtreme(通极),与传统强化学习“从零开始训练一个统一策略”的方式不同,通极采用了一种两阶段学习框架。
在第一阶段,研究团队首先为不同动作训练专门的“专家策略”,利用生成式建模方法,将这些专家能力融合为一个统一策略。这种方式是学习动作分布的生成过程,使系统能够同时覆盖更多类型的复杂动作。在第二阶段,在生成式策略基础上,通研院进一步引入考虑真实电机物理特性的强化学习优化,这些设计显著提升了策略在真实机器人上的可执行性,使仿真中学到的技能能够更稳定地迁移到真实机器人系统中。
实验结果表明,在真实机器人测试中,该方法在多种高动态动作任务上取得了超过90%的成功率。为解决多动作机器人控制的可扩展性问题提供了新的思路,也为未来更加复杂的机器人技能学习奠定了基础。
据了解,通极这项研究的主要作者均为通研院通用人工智能协同攻关合作体人才培养计划(简称“通计划”)的联培博士生。“通计划”导师、通研院具身机器人中心主任黄思远介绍:“‘通计划’打破了本、博之间的壁垒,学生进入通研院后就带着‘解决问题’的视角去构建知识体系,这种‘从研到用’的闭环训练,让学生既能深入理解人工智能的本质问题,又能在解决真实世界的复杂性中,锻炼出强大的工程实现能力。通极的成果正是这种培养模式的一个缩影。”
在去年的中关村论坛上,通研院正式推出“通智大脑”(简称“通脑”),并与宇树、乐聚等头部机器人企业组成“通智大脑联盟”。“通脑”平台基于全球首个通用智能人“通通”的核心技术,为机器人装上了一套可通用、能思考的“决策中枢”和控制运动能力、提升协调性的“运控系统”。通极是“通脑”平台运动控制能力的重要技术组成部分,进一步强化了机器人在真实物理世界中的运动能力,使其能够在复杂环境中稳定执行多种高动态动作。(记者 李洪亚)