2024-09-29 09:18
在奔向未来的浪潮中,人工智能如同创新引擎,引领着新一轮产业变革的巨轮破浪前行。作为引领全国人工智能技术与产业发展的“AI第一城”,北京已实现覆盖基础层、技术层、应用层全链条的人工智能全产业链布局,加速涌现的AI创新成果成为驱动产业转型升级、催生社会治理创新、激发经济增长动能转换的重要力量。
2018年11月,聚焦人工智能原始创新和核心技术,市科委、中关村管委会与海淀区共同推动成立新型研发机构——北京智源人工智能研究院。
走向通用人工智能还需要克服哪些难题?未来实现通用人工智能需面临哪些难题与挑战?智源将如何推动北京人工智能产业进一步发展?记者专访了智源研究院院长王仲远,以下为访谈问答实录:
一、关于通用人工智能
1.在北京重点培育的20个未来产业中,“通用人工智能”位列其中。能否为我们描绘一下,通用人工智能有什么标志性的特点?
王仲远:大模型的发展让业界看到了通用人工智能到来的可能性。从单一语言到多模态,从理解到生成,大模型已经具备了类似人类从小到大生长过程出现的涌现能力,并且展现出了很强的逻辑推理能力。Sora的出现以及国内各大厂商推出的复现Sora文生视频能力的大模型,这证明了目前大模型可以理解三维序列,人类世界是三维空间加时间序列,也就是说大模型具备了一定的物理和人类世界的理解和刻画能力,展现了基础的世界模型的scaling law和潜力。
通用人工智能,区别于专用人工智能,具备极强的跨领域通用性和泛化性,同时,具备普遍超越性的理解和推理能力。
2.走向AGI,还需要解决哪些关键难题?除了大模型,还有哪些技术方向是人类迎来“人机共生”时代之前需要重点发展与攻关的?
王仲远:目前,大模型的能力涌现依赖于大数据、大算力和强算法,这一技术路线是资源消耗型,往下一阶段发展时,需要庞大的算力资源。大模型的训练和使用,比传统的数据中心要消耗更多的电力,主要归结于AI服务器和芯片。此外,算力设备需要冷却才能保持运行,因此会产生大量的水资源的消耗。因此,算力依赖产生的能源、资源问题是大模型以及未来实现AGI必须解决的关键问题。
据《纽约客》杂志援引国外研究机构报告,ChatGPT每天要响应大约2亿个请求,在此过程中消耗超过50万度电力,也就是说,ChatGPT每天用电量相当于1.7万个美国家庭的用电量。而随着生成式AI的广泛应用,预计到2027年,整个人工智能行业每年将消耗85至134太瓦时(1太瓦时=10亿千瓦时)的电力。
另一方面,大模型走向产业落地,真正赋能千行百业,需要解决端侧模型规模做小,性能与成本的平衡,模型幻觉与可靠性,以及适配不同场景领域知识的问题。
大模型从数字世界走向物理世界,需要与硬件结合,具身智能的发展还需要长期的研发与创新,经历漫长的技术周期。
3.在通用人工智能发展中,您认为中国、美国目前分别处于何种水平?
王仲远:中国拥有广阔的市场和应用场景的优势,有利于推动大模型技术落地。就大模型自身技术的发展而言,目前,中国在芯片集群算力搭建和模型算法训练研究上,已经基本到达了产业化可用的水平,将来有望形成一个正循环。在最顶尖的大模型方面,国际一流模型在持续迭代中,中国还在持续追赶中。
二、关于智源
1.在全国这轮大模型浪潮全面铺开之前,智源就已经率先投入大模型研发。智源是在何时确立了大模型作为通往AGI重要技术路线的判断的?
王仲远:2020年,OpenAI发布ChatGPT-3,但是当时业界对于大模型是不是正确的技术路线没有形成共识。但是,智源认为大模型是通往AGI 的一条重要路径,非常坚定地选择这条技术路线。2020 年 10 月,智源成立了百人研发团队,攻关悟道系列大模型,先后研发了悟道系列1.0、 2.0 、3.0大模型。其中,悟道2.0 ,于2021 年6月发布,是1.75 万亿参数规模的 MoE 模型,在当时是全球最大参数规模的模型。“悟道3.0”大模型系列,于2023年6月发布,包括“悟道·天鹰”(Aquila)语言大模型系列、“悟道·视界”视觉大模型系列,以及一系列多模态模型成果。
在2024年6月的智源大会上,智源也对未来大模型技术发展路线做出了预判:现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力。一方面,基于语言大模型为基础,叠加强化学习技术有望进一步提升模型的智能水平。但从更加长远来看,这也许并不是让人工智能感知、理解物理世界的终极技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。未来,大模型将以数字智能体与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。
2.在本轮人工智能的浪潮中,投入大模型研发的机构、企业众多,智源有何优势?有何自我定位?
王仲远:智源是北京市新型研发机构,致力于成为人工智能创新引领者,一方面搭建支撑大模型发展的公共技术基座,解决当前产业的痛点,例如语言大模型上做共性研究、大模型高质量语料库等;另一方面在多模态、生物计算、具身智能、世界模型等技术领域进行前沿研究,同时也在做包括类脑、数字心脏等科学领域的探索。
3.您曾提到,智源要做“高校做不了、企业不愿做”的研发,具体如何理解?
王仲远:回顾过去十余年,人工智能技术的几次重大突破,既不只是单纯算法层面的研究突破,也不仅仅是单纯的工程落地,本质上是一个需要数据、算力、算法、评测等多团队高度协同中的算法类系统性工程,从数据的收集、清洗,GPU计算算力的统筹调配,到技术路线的选择,模型的训练效率以及过程能力评估,Scaling law的探索与论证,再到把模型变成产品级的服务。“在人工智能的研发上,取得突破性创新需要庞大且复杂的团队作战与协同,大量集中的资源投入以及技术路线的研究探索与试错。像智源这样的新型研发机构具备这样的能力与条件。”
智源研究院初步探索了“集中力量办大事,青年人才挑大梁,开放生态育创新”的科研组织模式。通过智源学者、智源大会、智源社区、青源会,构筑涵盖了产学研用的欣欣向荣的内行生态圈,汇集了顶尖学者+研究与工程团队,打造有重大技术挑战、需要紧密工程协作、长期攻关的系统级成果。智源研究院推崇代表作文化,不论资排辈,不看帽子,只看是否有取得标杆性成就的潜力。
三、关于北京
智源作为北京市重点支持的聚焦人工智能的新型研发机构,在推动北京人工智能产业整体实力提升方面,做出了哪些努力?下一步有何重点发力方向?
王仲远:中国大模型的思潮和许多技术始于智源研究院。在今年6月的智源大会上,国内头部大模型创业公司月之暗面、百川智能、智谱AI、面壁智能的CEO对智源在大模型领域的技术引领作用和产业贡献表示了肯定。
人工智能产业发展依然需要解决算力、数据和算法三大要素的限制。
在算力资源高效利用方面,智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS,集异构算力管理、算力自动迁移、并行训练优化、高性能算子于一体,可向上支撑大模型训练、推理、评测等重要任务,同时向下管理底层异构算力、高速网络、分布式存储,实现高效稳定的集群管理、资源优化、大模型研发。目前,FlagOS已支持了超过50个团队的大模型研发,支持8种芯片,管理超过4600个AI加速卡,稳定运行20个月,SLA超过99.5%。
在数据建设方面,智源研究院持续建设并开放大模型训练数据集,已对外开源数据集近60个,总下载量近11万次,覆盖文本、图片、图文对等通用数据集,千万级高质量开源指令微调数据集 InfinityInstruct,以及覆盖汽车、医疗、教育、文学、金融、旅游、法律、体育、新闻等18个领域的行业数据集IndustryCorpus 2.0。智源研究院作为中国网络空间安全协会数据集牵头单位之一,组织建设并开源了高质量、高可信、高安全的“中文互联网语料库”CCI,第二批数据规模达500G,涵盖1.25亿个网页。
此外,智源研究院联合合作伙伴共同发布了北京市人工智能数据运营平台,实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,为大模型行业发展提供坚实的数据支撑。目前,数据运营平台上包含116个通用数据集,数据量达700.27TB,28个行业数据集,数据量为4.33TB。
在大模型技术栈建设方面,智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0,为大模型开发和研究工作提供模型、数据、算法、评测、系统一站式支持,目前,开源模型全球总下载量超 8203万次,开源项目代码下载量超 74 万次。
下一步,智源研究院将聚焦原生多模态世界模型、具身智能大模型、AI for Science的前沿研究,探索通用人工智能的未来可能路径。