AI将更像真人，蚂蚁百灵大模型升级多模态能力

北京日报客户端 | 记者孙奇茹

2024-07-05 13:53

经济

7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了其自研大模型最新研发进展：百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商实现了这一能力。

记者在现场看到，多模态技术可以让大模型更像人一样感知和互动，能支持AIGC、图文对话、视频理解、数字人等一系列任务，支撑智能体体验升级。在具体应用方向上，多模态大模型技术能够使AI更好地理解人类世界的复杂信息，也让AI落地应用时更符合人类的交互习惯，在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

百灵大模型的多模态能力，也已被应用在生活服务、搜索推荐、互动娱乐等场景。在生活服务上，蚂蚁集团使用多模态模型实现了名为ACT的“一键智能化”技术，让智能体具备一定规划执行能力，比如根据用户语音指定直接在星巴克小程序下单一杯咖啡，目前这一功能已在支付宝智能助理上线。在医疗领域，多模态能力可以实现复杂任务的操作，例如对超过100多种复杂的医学检验检测报告进行识别和解读，还可以检测毛发健康和脱发情况，对治疗提供辅助。

在现场，蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景：通过视频对话的自然形式，AI助理能为用户识别穿着打扮，给出约会的搭配建议；根据用户不同的意图，从一堆食材中搭配出不同的菜谱组合；根据用户描述的身体症状，从一批药物中，挑选出可能合适的药，并读出服用指导，供用户参考等。

“从单一的文本语义理解，到多模态能力，是人工智能技术的关键迭代，而多模态技术催生的‘看听说写画’的应用场景，将让AI的表现更真实，更接近人类，从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏说。

编辑：孙奇茹

打开APP阅读全文