Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
jianchuanli 09035c62a0 | 1 year ago | |
---|---|---|
img | 1 year ago | |
README.md | 1 year ago |
数据作为数字经济的核心生产要素,只有将各地区各个领域间数据要素流通交易起来,才能够充分释放数据要素价值。鹏城实验室率先开放超大规模高质量中文语料数据集(盘古数据-1.1TB高质量中文语料数据、一带一路多语言数据-1TB高质量多语言语料数据),研究人员可在基于鹏城AI靶场的众智AI协同计算平台上安全使用数据,但无法带走数据。若用户不愿上传自身数据到靶场,可通过协同计算使用语料数据集进行训练或微调。
超大规模高质量中文语料数据集对于训练千亿级参数规模的鹏程·盘古模型至关重要,盘古数据介绍详见盘古数据-1.1TB高质量中文语料数据。
通过AI靶场的张榜打靶任务超大规模高质量中文语料数据集安全开放安全开放鹏程PanGu-200GB高质量中文语料数据。无需进行申请,揭榜成功后即可获得200G语料数据的权限。
数据集 | 模型 | 数据使用权限申请 | 描述 | 数据名称 |
---|---|---|---|---|
鹏城盘古1T数据集 | [鹏程·盘古系列模型] | 如有使用盘古数据集的需求,请邮件反馈至 zhangy03@pcl.ac.cn | 通过开放语料搜集、Common Crawl数据清洗、数据采购等方式,原始语料数据量近80TB,清洗后形成1TB数据量的中文语料数数据集。 | pangu_dataset |
获得全量数据权限后,即可对全量数据进行分析,全量数据分析流程可参考STEP3-全量数据分析流程。
此外,基于AIsynergy的协同计算功能帮助数据分析师结合自有数据进行协同分析,详见基于鹏城AI靶场的众智AI协同计算平台V2.0。
如果你对此数据集的使用有任何疑问或好的建议,欢迎点击【任务】页面通过创建任务来反馈~
也可以扫码进微信交流群,沟通更及时哦~
数据作为数字经济的核心生产要素,只有将各地区各个领域间数据要素流通交易起来,才能够充分释放数据要素价值。鹏城实验室率先开放超大规模高质量中文语料数据集(盘古数据-1.1TB高质量中文语料数据、一带一路多语言数据-1TB高质量多语言语料数据),研究人员可在基于鹏城AI靶场的众智AI协同计算平台上安全使用数据,但无法带走数据。若用户不愿上传自身数据到靶场,可通过协同计算使用语料数据集进行训练或微调。
other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》