You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.
Hanlard f969ab7cf6 上传文件至 '' 1 week ago
m2m_100 init 2 months ago
sh_dir init 2 months ago
user_dir init 2 months ago
README.md 更新 'README.md' 2 months ago
bleus.png 上传文件至 '' 1 week ago

README.md

PCL-Tongyan

鹏程-通言模型

通言模型是在M2M-100模型结构上进行改进的多语种机器翻译模型,通过参数复用和增量式训练,将模型参数从1.2B提升至13.2B,在一带一路多个小语种的翻译上大幅提升。

特性

1.将M2M 1.2B模型增量式改进为混合专家版本
2.增量式训练,减少计算消耗,符合当下“绿色-AI”。
3.通过复制专家+随机噪音 -> 多个专家

训练过程

多卡多专家,16张V100显卡进行数据与专家混合并行,提升资源利用效率
专家间通信,实现多专家模型并行
模型基于fairseq和fastmoe实现,训练快速且部署简易

推理过程

单卡多专家,无需卡间通讯,大幅提升推断速度

普通模型 转 MOE模型

python Change_1.2B_To_16Moe_Version.py

分布式MOE模型 转 单卡存储

python Comerge_16To1.py

多语言微调

bash sh_dir/Train-16moe-SiLu-Inhert.sh 16 GShardGate 2

测试 xx-zh/zh-xx翻译结果

bash sh_dir/Test-16Moe-multi-silu.sh 0 xx

依赖环境

fairseq                       1.0.0a0+2fd9d8a     
fastmoe                       0.2.0               

处理数据脚本

bash sh_dir/process.sh

性能

点击查看

简介

鹏程-通言模型 通言模型是在M2M-100模型结构上进行改进的多语种机器翻译模型,通过参数复用和增量式训练,将模型参数从1.2B提升至13.2B,在一带一路多个小语种的翻译上大幅提升。

Python Shell