AISynergy

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

3.8 KiB

Raw Permalink Blame History

背景
数据集介绍
AISynergy 的使用
MindSpore框架下的同构和异构协同训练

鹏程·mPanGu-α 2.6B MindSpore版本，在‘鹏城云脑1’ GPU（V100）和‘鹏城云脑2’ NPU（昇腾910）云际异构集群，基于AISynergy协同计算平台，进行的一带一路小语种多语言机器翻译的协同训练

背景

中国已经同140个国家和31个国际组织签署205份共建“一带一路”合作文件，“一带一路”共涉及12语系，28语族，132种语言，语言多样性是造成语言障碍的主要因素。建设以中文为核心的“一带一路”多语言机器翻译平台将是突破语言障碍的金钥匙，在促进经济、政治、外交、文化交流等方面起到越来越重要的作用。

由于语种使用人口、地理分布的不均衡以及社会信息化水平的差异，造成语种数据资源的极度不均衡和隔离，因此国内优秀的机器翻译产品在小语种翻译效果上难以发挥优势，本场景聚焦于应用场景对协同训练的需求，基于AISynergy协同计算平台，对小语种多语言机器翻译进行探索研究，旨在抛砖引玉，以联合相关科研院所、优势企业单位，推动一带一路小语种多语言机器翻译性能的不断提升，促进一带一路相关国家沟通和交流的顺畅。

数据集介绍

原始数据来源于PanGu-α语料、Common Crawl、CCMatrix、CC-100、OPUS等，共涵盖66个一带一路沿线国家53个语种，其中单语7.3B句对，中<->外双语0.32B句对，英<->外双语1.96B句对；

数据的清理策略有：软硬规则过滤、双语字符对齐过滤、整体精确去重、整体模糊匹配去重等，清洗后语种数据分布如下图：

AISynergy 的使用

AISynergy提供了两种使用方式：网页前端启动任务和服务器手动启动任务，两种方式选其一

1、基于网页前端启动任务，可以参考文档平台使用手册。

2、基于AISynergy-core启动任务，可以参考下面步骤。

MindSpore框架下的同构和异构协同训练

鹏程·mPanGu-α2.6B采用混合并行方案，详细技术细节，请参考PanGu-α，

环境要求

AISynergy
MindSpore >= 1.6

2.6B同构协同训练

启动server

# 起8个端口，对用8路模型并行，使用端口的修改在.sh文件中
bash multi_server_start.sh 8

启动client

‘鹏城云脑1’，GPU裸机启动

bash scripts/run_distribute_train_gpu.sh device_number /hostfile /path_to_dataset batchsize 2.6B

‘鹏城云脑2’，NPU，提交任务启动

ModelArts 提交任务，启动文件：train_client_npu.py

2.6B云际异构协同训练

启动server

# 起8个端口，对应8路模型并行，使用端口的修改在.sh文件中
bash multi_server_start.sh 8

启动client

云脑1，GPU裸机启动client 1

bash scripts/run_distribute_train_gpu.sh device_number /hostfile /path_to_dataset batchsize 2.6B

云脑2，NPU提交任务启动client 2

ModelArts 提交任务，启动文件：train_client_npu.py

训练loss

目前训练还在进行，最新结果会及时进行更新

许可证

Apache License 2.0

3.8 KiB Raw Permalink Blame History

背景

数据集介绍

AISynergy 的使用

MindSpore框架下的同构和异构协同训练

环境要求

2.6B同构协同训练

启动server

启动client

2.6B云际异构协同训练

启动server

启动client

训练loss

许可证

3.8 KiB

Raw Permalink Blame History