AISynergy

Branch: V2.0.0

10 KiB

Raw Permalink Blame History

基于鹏城AI靶场的众智AI协同计算平台V2.0介绍
鹏城AI靶场平台介绍
主要目的
快速使用
基于靶场环境开放的数据清单
环境说明
- - 交流群
- 许可证

基于鹏城AI靶场的众智AI协同计算平台V2.0介绍

数据作为数字经济的核心生产要素，只有将各地区各个领域间数据要素流通交易起来，才能够充分释放数据要素价值。鹏城实验室率先开放全球最大规模自然语言语料数据集（1.1TB的高质量中文语料数据集、1TB高质量的多语言数据集），研究人员可在基于[鹏城AI靶场技术]的众智AI协同计算平台上安全使用数据，但无法带走数据。自身有数据的单位可通过协同计算对外安全开放数据。

图1：使用AI靶场协同计算场景框架图

鹏城AI靶场平台介绍

AI靶场是基于方滨兴院士提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念，在鹏城实验室构建的数据要素流通交易新型基础设施平台。通过调试环境与运行环境分离体系架构以及仿真数据生成、隐私保护前提下的调试等创新技术，确保数据所有权和使用权分离，可以让更多的数据提供方敢于将其数据安全托管，让更多的数据使用方能够充分挖掘真实场景真实数据。AI靶场广泛应用于金融、医疗、能源、交通等领域的数据开发利用场景，有效解决数据流通与数据安全之间的矛盾，实现安全保障下的数据价值充分挖掘。
AI靶场提出一个模型加工场的方法，即通过构建一个安全可控区域，通过数据不动程序动，数据可用不可见来保证隐私。由于是基于靶场的思路来解决AI的问题，所以我们也称之为AI靶场。其基本思想是构造一个可信的执行环境。这个可信的执行环境不完全等同于传统的可信执行环境TEE。传统的可信执行环境是强调计算环境可信，不会被攻击。在这里把一些人为的因素放在里面，把社会工程因素放在里面，以构建一个安全可控的区域。这个安全可控包括人员可控，能落实责任制。如在政府部门或者国企里构造一个安全可控区域，再通过“数据不动程序动”“数据可用不可见”的方法来保证隐私。在这个面模型架构中，数据拥有方需要把数据放到模型加工场里。为什么敢放过来？因为这里是可信的，不会出卖、盗用数据。同时，数据所有者可以决定是否能够被平台所使用。

图2：鹏城AI靶场平台框架图

AI靶场底层依托鹏城云脑提供了全球最强算力，通过构建可信数据空间，以张榜打靶方式将数据安全开放，进而筛选具有核心竞争力的AI团队, 实现数据应用集智创新。AI靶场目前已有力支撑了“2022年猛犸杯国际组学数据创新大赛”、“昂楷杯第一届数据安全竞赛”、“广东省网络安全协会数据挖掘大赛”、“深圳企业高质量发展评价指标体系”、 “腾景AI经济预测”等多个重要领域的数据安全开放。

主要目的

基于鹏城AI靶场的众智AI协同计算平台V2.0的目标：

盘古语料的开放：[鹏程·盘古]约1.1TB的高质量中文语料数据集上传至鹏城AI靶场，开放给用户使用或用户也可以上传自己的语料到靶场，联合盘古的部分语料训练新的模型；
多语言语料的开放：[鹏程·多语言模型]约1TB高质量的多语言数据集上传至鹏城AI靶场，开放给用户使用或与用户进行协同训练。
协同训练场景：若用户不愿上传语料到靶场，可以通过协同训练的方式进行训练或微调。
案例：提供盘古-350M单机单卡/单机多卡进行预训练或微调的案例。

快速使用

场景介绍1：AI靶场上安全开放语料数据给第三方场景

训练语料对一个强大的、可扩展的预训练模型至关重要。一方面，数据量应该足以满足一个预训练大模型的需求。另一方面，数据应是高质量和多样性的，以确保预训练语言模型的通用性。为了覆盖广泛而多样的中文语料库，鹏城实验室大模型团队从Common Crawl、电子书、百科全书、新闻等广泛的资源中收集了大量的原始数据。在此基础上，对数据进行多重过滤和清洗，确保处理后的数据具有高质量和多样性。经过复杂的预处理，得到超大规模高质量中文语料数据集（盘古数据-1.1TB高质量中文语料数据、一带一路多语言数据-1TB高质量多语言语料数据），这些语料数据集经过预处理后具有重要数据价值，但由于很难保证其中没有涉及敏感或安全隐私的数据内容，直接开放具有较大风险。通过AI靶场，研究人员可安全使用这些语料数据，但无法带走数据，实现数据不流出，充分发挥语料数据价值，助推自然语言处理等基础研究的协作快速发展。请参考如下示例：

[ 如何上传您自己的语料到靶场，与盘古部分语料进行联合训练？]

场景介绍2：AI靶场上语料数据与第三方自有数据协同计算场景

若研究人员有自有语料数据，但不愿将自有数据上传至AI靶场，可以通过协同计算的方式进行联合训练。研究人员在AI靶场和本地分别进行模型训练，通过协同计算框架，可完成跨多个智算中心的协同计算作业，得到基于超大规模高质量中文语料数据集以及自有数据协同训练的新模型，进而实现多中心数据价值利用最大化及协同计算应用赋能新范式。请参考如下示例：

[ 如何不上传您自己的语料数据，使用您本地计算环境与鹏城AI靶场进行远程联网协同训练？]

场景介绍3：AI靶场上安全开放"一带一路多语言数据集"1TB语料数据

鹏城实验室基于AI靶场开源开放1TB高质量的一带一路多语言数据集，希望在以中文为中心的一带一路低资源小语种领域提供给大家一个研究探索的数据范例，推动大规模多语言翻译任务的不断演进。

[多语言mPanGu,单机、多卡+单方、多方数据协同训练场景]

基于靶场环境开放的数据清单

数据集	模型	数据使用权限申请	描述	数据名称
鹏城盘古1T数据集	[鹏程·盘古系列模型]	如有使用盘古数据集的需求，请邮件反馈至 zhangy03@pcl.ac.cn	通过开放语料搜集、Common Crawl数据清洗、数据采购等方式，原始语料数据量近80TB，清洗后形成1TB数据量的中文语料数数据集。	pangu_dataset
一带一路多语言1T数据集	[鹏程多语言系列模型] [鹏城多语言翻译模型]	如有使用一带一路多语言数据集的需求，请邮件反馈至 taoht@pcl.ac.cn	每个文件为该语种单或双语抽样语料，目前包含52种语种数据，所有语料来自于PanGu-Alpha中文语料、CC-100、CCMatrix、UN Parallel Corpus、WMT等经过规则过滤、全局精确和模糊去重、双语字符对齐过滤等清洗流程得到	B&R-M-1T

环境说明

	靶场环境（mindspore 1.7版本）	modelarts(mindspore 1.7版本)	案例参考
单机单卡	支持	支持	[案例]
单机单卡协同训练	支持	支持	[案例]
单机8卡	支持	支持	[案例]
单机8卡协同训练	支持	支持	[案例]
多机多卡	支持	支持	[案例]

交流群

有任何关于数据下载或靶场平台使用的问题，请添加此微信交流群

许可证

Apache License 2.0

10 KiB Raw Permalink Blame History