2025-07-04 14:00
想象一下,你给一个从未见过猫的孩子两张图——一张是2D卡通猫,另一张是3D毛绒玩具。哪个更容易让他理解“猫”的真实形态?显然,立体的触觉和视觉体验,远胜于平面图像。
AI的学习过程正在经历类似的认知跃迁。
人工智能的发展正经历着从二维平面到三维立体的认知跃迁,这就像人类从学会看图识字到掌握空间思维能力的进化过程。当前,全球AI技术已经突破了简单的图像识别阶段,正在向更高级的空间智能迈进。视觉-语言-空间(Visual-Language-Spatial,简称VLS)大模型作为这一变革的核心载体,不再满足于识别图片中的物体,而是致力于实现"空间智能"——让AI系统具备类似人类的立体感知和空间理解能力。
天云数据语言、视觉、空间多基型协同,从单一模型解决特定问题,到多模态基础模型协同实现人类级别的通感推理。其核心在于"强化思想"的贯穿应用,让AI系统能够像人类一样不断学习、适应和成长。这就像一个人从只会做加减乘除进化到能够综合运用视觉、听觉、触觉等多种感官进行复杂决策。
天云数据首席执行官(CEO)雷涛表示:
首先,强化学习是训推一体的后训练架构,与预训练有本质区别。预训练相当于“学习教科书”,是对训练数据集的模仿,属于静态学习;强化学习相当于“做练习题”,通常没有详细解答但会给出正确答案,是基于激励进行自主探索的动态学习过程,只有自己懂了方法才能得到正确答案。
其次,奖励工程代替提示工程,成为后训练时代的关键方法。提示工程受限于训练数据的固有模式,而奖励工程创造了一个开放式的学习环境,模型不再被动响应指令,而是主动寻求奖励最大化。
更重要的是,强化学习的奖励是训练数据之外的独立数据类别,具有持续的特性,这为AI的持续进化提供了更多可能。
此外,强化学习通过"用不确定性换取奖励"的创新机制,通过工程方法主动保留低概率但可能带来高回报的行为选项,从而延缓熵的坍缩,提高模型上限。这种做法类似于人类的"冒险精神",虽然已知较优方案但仍会尝试新方法以发现潜在突破。
一、天云数据Elpis基础模型家族:后训练时代的智能三叉戟
如果关注大语言模型的新进展,就会发现类似DeepSeek R1、OpenAI DeepResearch等技术进步都来自于强化学习在模型训练中的应用。几乎可以断定,模型或者Agent的能力进化,主要提升方法就是强化学习。
想象一下,如果给AI系统装上强化学习版成长型思维,它会如何?天云数据的Elpis-VR、Elpis-VL和Elpis-VLS三款后训练模型给出了答案:就像培养一个全能特工,Elpis-VR负责语言理解和领域专精,Elpis-VL实现多模态协同,Elpis-VLS则赋予立体视觉能力,——三者不是简单的功能叠加,而是通过强化思想形成有机整体。
Elpis-VR模型采用训推一体强化学习架构,这相当于给AI装上了"经验总结器",能够将从通用语言理解中获得的知识转化为特定领域的专业智能;Elpis-VL作为多模态大模型,能够在语言、视觉之间自由转换,实现跨模态理解;Elpis-VLS模型面向具身智能,提供空间视觉语义的端到端解决方案。如果说普通视觉AI看到的是平面照片,Elpis-VLS则构建了立体思维模型,让AI理解深度、距离和空间关系。这就像给人装上3D眼镜,世界突然从二维变成了三维。这三款模型共同构成了一个不断自我强化的智能生态系统。
二、强化思想:AI进化的核心驱动力
强化思想之于AI,犹如好奇心之于人类儿童。它是一种让系统持续自我完善的机制设计。天云数据基础模型的核心突破,正是将这种思想深度融入模型架构。
以Elpis-VR为例,其强化学习机制就像给AI配备了"试错学习"能力。想象一下,在电网调度中心,工程师们正在处理一起突发故障,他们需要快速计算故障影响范围并制定处置方案。
Elpis技术团队从专业人才培养中获得灵感。一个合格的工程师不仅要掌握理论知识,更要经历严格的实践训练。基于这一理念,Elpis采用"可验证强化学习"系统,其核心包括:专业知识库建设,与行业专家合作,构建覆盖多个领域的机理模型库;验证体系设计,为专业问题设置唯一、可解释的检验标准;持续学习机制,建立类似"师徒制"的强化学习训练模式。
Elpis-VL多模态大模型则将这种强化思想扩展到视觉领域。在智能安防应用中,系统不仅能识别人脸,还能通过持续观察学习异常行为模式。就像经验丰富的保安能察觉可疑迹象一样,AI通过强化机制建立起场景理解能力,实现从"看得见"到"看得懂"的进化。
Elpis-VLS构建了空间认知模型,带来"立体视觉"突破。在辅助驾驶场景中,它不仅能识别障碍物,还能准确判断距离和运动轨迹,解决了现实世界三维数据的获取、表示和理解问题。这类似于婴儿通过抓取玩具学习空间感知,AI也通过与三维世界的"互动"建立起立体思维。
三、后训练时代:从数据喂养到自我进化
后训练时代已启动,人工智能正在从预训练时代的“死记硬背”向后训练时代在实践中持续学习持续迭代演进。
天云数据构建了"数据生成-模型强化"的正向循环。传统AI应用是单向的数据输入到结果输出,而Elpis系统基础模型则将输出结果重新转化为学习素材。这类似于人类通过反思经验获得成长,AI也形成了类似的自我完善机制。
这种能力使天云数据能够提供L5级别的MaaS平台服务,AI已经具备了自主进化的能力。平台提供多芯多租户管理、弹性工作流服务等功能,都建立在模型持续强化的基础之上。这意味着企业接入的不再是静态AI工具,而是会成长的智能伙伴。
语言、视觉、空间能力的协同强化,最终目标是实现人类级别的通感推理能力。这就像让AI获得"第六感"——能够综合各种信息源形成直觉判断。
天云数据的Elpis模型系列代表了一种AI发展新思路——不再追求单一指标的优化,而是通过强化思想构建持续进化的智能系统。这就像从培育专才转向培养通才,从打造工具转向孕育伙伴。未来,随着强化机制的不断完善,我们有望看到AI系统实现"终身学习"。而这一切的起点,正是今天这些具备强化思想的基础模型。它们不仅是技术产品,更是AI进化史上的重要一步,标志着人工智能开始走上自主成长的道路。