Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
wangh06 5948e50631 | 10 months ago | |
---|---|---|
resource/fig | 1 year ago | |
.gitignore | 2 years ago | |
README.md | 10 months ago | |
README_EN.md | 2 years ago | |
__init__.py | 2 years ago |
中文|English
盘古增强版,更强的任务理解与处理能力,更加擅长遵循您的任务说明。更多技术细节会持续更新,敬请关注。
目前盘古增强版2.6B GPU版本的模型推理阶段显存占用控制在7G以内,8G显存的机器即可推理。
要点:
图1显示了用于构建增强模型的主要方法。我们采用了四种技术方法来提高模型的任务理解和处理能力,以及对任务描述的泛化能力。即多任务、统一任务格式、快速调整和持续学习。
我们设计了统一的任务格式,如图2所示。该统一格式旨在减少下游任务之间的差异,提高知识转移和任务描述的泛化能力。使用这种格式,我们在18个任务上构建了50多个提示,以训练盘古增强版模型。
我们进行了大量实验来比较盘古增强版和盘古在自然语言理解任务和自然语言生成任务中的表现。这些任务的结果见表1。对于每个任务,如果能获取到测试集则在测试集上进行评估,否则在验证集上进行评估。同时为了降低计算资源消耗,部分任务上从数据中随机采样部分子集进行评估。结果表明,盘古增强版的各项任务的性能远远优于盘古,平均提高1000%以上。虽然盘古增强版模型只训练了5/6个epoch,但它仍在训练中。同时,通过人工评估,我们得出结论,它保持了与盘古模型相同的原始生成能力。
在没有做数据增强的情况轻松打了Fewclue榜,在科学文献学科分类CSLDCP、新闻分类TNEWSF、应用描述主题分类IFLYTEK 3个任务分别取得第1,综合排名第7(除人类外),同类结构及参数规模模型第1。
模型文件 | Md5 | 大小 | 参数配置 |
---|---|---|---|
pangu-alpha-evolution_2.6B_fp16 .zip | e5c8cbb713fd916b12cbed7fb94a1242 | 4.6G | num-layers : 31 hidden-size : 2560 num-attention-heads : 32 |
pangu-alpha-evolution_2.6B_fp16 # 模型目录
-- iter_0001000 # 迭代次数目录
--mp_rank_00 # 模型并行时各个 GPU 的目录
--model_optim_rng.pt # 模型文件
--latest_checkpointed_iteration.txt # 记录 ckpt 的迭代次数文件
注:num-layers
等于 Pangu 项目中的 num-layers - 1
bash scripts/generate_pangu_evolution.sh
了解如何为常用用例创建提示。
NLI
Input:
推理关系判断:
前提:新的权利已经足够好了
假设:每个人都很喜欢最新的福利
选项:矛盾,蕴含,中立
答案:
Model output:
中立
Classification
Input:
文本分类:
基本上可以说是诈骗
选项:积极,消极
答案:
Model output:
消极
QA
Input:
问题:郑州是那个省的
答案:
Model output:
河南
Translate
Input:
翻译成英文:
不过他承认,美国与欧洲关系密切。
Model output:
He admitted that the United States was relatively friendly with Europe.
支持 python >= 3.6, pytorch >= 1.5, cuda >= 10, nccl >= 2.6, and nltk。
推荐使用英伟达的官方 docker 镜像docker pull nvcr.io/nvidia/pytorch:20.03-py3
。
盘古增强版,更强的任务理解与处理能力,更加擅长遵循您的任务说明。
Markdown Python
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》