2000亿开源中文预训练语言模型「鹏程·盘古α」
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 

5.7 KiB

鹏程·盘古α常见问题

[训练与推理环境问题]
[模型设计问题]
[模型压缩问题]
[下游任务问题]
[数据集问题]
[其他]
[提交更多问题]

模型训练与推理环境问题

(1)Q:是否支持GPU+MindSpore推理或者训练?
A:目前已支持GPU+Mindspore对PanGu-α 2.6B+13B模型进行推理,详细参考[PanGu-Alpha-GPU]
暂不支持GPU+Mindspore进行模型训练

(2)Q:是否支持GPU+PyTorch推理或者训练?
A:暂不支持GPU+PyTorch推理或者训练,需要Mindspore框架对模型转换的部分支持。模型推理可以尝试我们在GPU上训练的中文megatron语言模型[Chinese-Megatron],仅供参考。同时欢迎提供更多在其他框架下的PanGu-α模型推理或者训练实验经验

(3)Q:运行predict脚本的时候提示:AttributeError: ‘Dropout’ object has no attribute ‘dropout_gen_mask’.
A:推理时用不到dropout的,相关行可以注释掉。详见[issues-11]

(4)Q:盘古-α模型实际用了多大的算力,训练了多长时间?
A:PanGU-α 200B模型用了鹏城云脑2的2048块华为昇腾910,跑了几周时间

(5)Q:13B的模型文件解压后大约有512个小的模型文件,利用“from mindspore import load_checkpoint”可以加载单个模型文件,但是第84和第327个模型文件解析失败,报错:google.protobuf.message.DecodeError: Field number 0 is illegal.
A:首先根据上传的MD5校验你下载文件的正确性;请确认使用加载模型:from mindspore.train.serialization import load_checkpoint,详见[issues-14]

(6)Q:盘古-α 2.6B在GPU上推理大概需要多大内存?
A:现在2.6b的 ckpt是fp32的,已上传一个fp16的2.6b模型文件[PanGu-Alpha-GPU]。用 fp16的2.6b模型,内存消耗是19G

模型设计问题

(1)Q:Top query layer这个设计很创新!不知道有没有相关实验对加入Top query layer前后进行对比?
A:Top query layer细节可以参考[技术报告],暂无前后对比实验。

(2)Q:目前模型是否开放提供推理API?盘古-α 200B模型有开放下载的时间计划吗?
A:(a)目前已开放13B模型在线体验服务[盘古-α在线体验服务],欢迎体验;
(b)200B模型开放时间点取决于推理优化的进度及对开源开放后带来影响的评估,有需要可与PangGu-α团队线下交流及合作。

模型压缩问题

(1)Q:目前有考虑模型压缩方面的工作吗?如此大规模的模型如何应用到实际产品或生产应用中?
A:目前对PanGu-α 2.B及13B模型做了推理加速,详细可以参考[Model-Compression]

下游任务问题

(1)Q:怎么样让模型生成更长的文字啊?超过1024序列长度
A:(a) 目前最长是1024,如果想要更长可以截取后面部分作为输入继续生成,或者遇到生成了中止符就替换掉继续生成。每次把上一次模型的输出拼接到输入,拼接的结果作为下一次的输入就行
(b) 目前单次生成长度最大是1024,如果要生成更长还是推荐拼接的方式(可以拼到1023,只生成最后一个字,不断迭代生成),后面增量推理如果可以实现不限制长度生成,会及时更新到开源社区。也欢迎大家多做一些研究实验,有好的想法或成果分享出来。

(2)Q:有些任务需要将样本借助模板来转化一下。你们当初涉及这个模板的初衷是什么?正常文本分类任务里面的推理阶段,比如我们采用经典机器学习方法来实现,是不需要将标签送到模型里面去的,直接输入text,预测label就好了。你们这里把text, label 做成对,通过模板转成sequence, 送给模型。这个label在推理阶段有啥用?
A:(a) 对于生成模型去完成不同类型的下游任务,需要匹配到任务的具体形式,可以详细了解不同下游任务的要求。这里只是我们实现下游任务形式的一种呈现,也可以尝试更好的模板或实现形式。
(b) 把你需要分类的所有标签都放进去计算一次loss(PPL),loss最低的就是要预测的标签
(c) 下游任务输入提示模板设计、few-shot学习都是非常重要的研究方向,如P-Tuning、Inverse Prompting等,更多内容可参考我们的开源项目[few-shot-learning]

数据集问题

(1)Q:请问下模型训练的词表是如何生成的?
A:模型训练词表是根据构建的1.1T语料库随机抽取后训练BPE模型得到的。详细见 [技术报告]

(2)Q:后续鹏程会公开部分数据让模型开发者自己也设计模型吗?
A:本来计划公开数据的,但考虑到大部分数据是从common crawl中清理出来的,担心有涉及隐私和非法的内容,所以暂不开放,需要进一步确认数据质量后再公布

其他