北京人工智能数据运营平台发布,并开源超大规模高质量数据集
北京商报

2024-06-14 21:19 语音播报

热点关注

6月14日,2024北京智源大会正式开幕,智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”。据介绍,北京人工智能数据运营平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。

目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。

大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。为此,论坛上,智源研究院还发布了全球最大的多行业中英双语数据集IndustryCorpus 1.0,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。

据了解,该数据集包含3.4TB开源的行业预训练数据(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。

IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB。除此之外,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布,有望大幅提升模型在专业领域的知识性,助力大模型的行业落地应用。


编辑:王志远

打开APP阅读全文