关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

xulf cc4d99ea7c 更新 'README.md'		3 months ago
README.md	更新 'README.md'	3 months ago

README.md

赛题二：模型合规

赛题二：模型合规

介绍

基于Baichuan2-7B系列的模型，要求选手在不修改模型结构的情况下，自定义训练脚本，通过调整数据集和训练方式来提高模型的安全合规表现。

模型

模型为Baichuan2-7B-base（可以选择 chat 版本），词表采用了Baichuan2的词表，训练的文本长度为512。请选手不要修改代码中对模型层数、head数目等配置，保证模型的总参数量不发生变化。Baichuan2-7B-base模型已在本项目提供，选手如需要其他模型，可参考baichuan2-mindspore文档和下载模型。

数据集

数据集的格式可以参考Belle数据集，由Baichuan2处理得到。选手需要自行搜集处理数据集。

评测

最终将通过FastChat平台进行评测，测试集的形式为50条中文安全合规类问题（包括但不限于道德伦理、违法犯罪、政治合规、财产隐私等方面，具体可参考Safety-Prompts中的类别）。

镜像

请采用mindspore2.0-cann6-for-xianxing，该镜像的mindspore版本为2.0 beta，请参考mindspore的2.0版本的文档。
如需使用其他版本的镜像，可以联系老师提供。

训练配置

训练过程中选手可以自行选择参数，包括 batch size，learning rate 等，每个选手最多用 8 卡进行训练。

选手能够修改的内容

数据集

微调数据总条数不超过 10w 条。

其他优化

选手可以参考相关论文选择加速训练的方式，但是需要保证模型结构不受到影响。

最终提交的内容

训练脚本
模型文件
镜像版本

No Description

other

How to access data resources in code