北京人工智能数据运营平台发布，并开源超大规模高质量数据集

北京商报 | 记者杨月涵

2024-06-14 21:19

热点关注

6月14日，2024北京智源大会正式开幕，智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”。据介绍，北京人工智能数据运营平台实现数据的汇聚管理、处理加工，并提供多种模态的数据标注支持，支持多种数据汇聚和使用形式，不断扩充数据规模，为大模型行业发展提供坚实的数据支撑。

目前，数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员，根据数据贡献实行积分制，即成员单位贡献数据，按照计分标准获取相应积分，同时获得共享数据的权益。“数算一体”模式针对高价值数据，仅在平台上进行数据加工、训练使用，保证数据不出安全域。

大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。当前已知的所有开源行业数据集（文本类）仅有约1.2TB，远远无法满足千行百业的模型需求。为此，论坛上，智源研究院还发布了全球最大的多行业中英双语数据集IndustryCorpus 1.0，大幅度提升了全球开源行业数据集的数据量，为大模型的行业落地提供了强有力的保障。

据了解，该数据集包含3.4TB开源的行业预训练数据（中文1TB，英文2.4TB），0.9TB的非开源定向申请的行业预训练数据，以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。

IndustryCorpus 1.0覆盖了18类行业的预训练数据集，其中科技类334GB，法律类275GB，医学类189GB，金融类198GB，新闻类564GB。除此之外，还包含教育、旅游、体育、汽车等，未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布，有望大幅提升模型在专业领域的知识性，助力大模型的行业落地应用。

编辑：王志远

打开APP阅读全文