Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
taoht cd8aaffc24 | 2 years ago | |
---|---|---|
.. | ||
docs | 2 years ago | |
scripts | 2 years ago | |
server | 2 years ago | |
src | 2 years ago | |
README.md | 2 years ago | |
hostfile | 2 years ago | |
hostfile_2gpus | 2 years ago | |
hostfile_8gpus | 2 years ago | |
predict.py | 2 years ago | |
train.py | 2 years ago | |
train_client_gpu.py | 2 years ago | |
train_client_npu.py | 2 years ago |
鹏程·mPanGu-α 2.6B MindSpore版本,在‘鹏城云脑1’ GPU(V100)和‘鹏城云脑2’ NPU(昇腾910)云际异构集群,基于AISynergy协同计算平台,进行的一带一路小语种多语言机器翻译的协同训练
中国已经同140个国家和31个国际组织签署205份共建“一带一路”合作文件,“一带一路”共涉及12语系,28语族,132种语言,语言多样性是造成语言障碍的主要因素。建设以中文为核心的“一带一路”多语言机器翻译平台将是突破语言障碍的金钥匙,在促进经济、政治、外交、文化交流等方面起到越来越重要的作用。
由于语种使用人口、地理分布的不均衡以及社会信息化水平的差异,造成语种数据资源的极度不均衡和隔离,因此国内优秀的机器翻译产品在小语种翻译效果上难以发挥优势,本场景聚焦于应用场景对协同训练的需求,基于AISynergy协同计算平台,对小语种多语言机器翻译进行探索研究,旨在抛砖引玉,以联合相关科研院所、优势企业单位,推动一带一路小语种多语言机器翻译性能的不断提升,促进一带一路相关国家沟通和交流的顺畅。
原始数据来源于PanGu-α语料、Common Crawl、CCMatrix、CC-100、OPUS等,共涵盖66个一带一路沿线国家53个语种,其中单语7.3B句对,中<->外双语0.32B句对,英<->外双语1.96B句对;
AISynergy提供了两种使用方式:网页前端启动任务和服务器手动启动任务,两种方式选其一
1、基于网页前端启动任务,可以参考文档平台使用手册。
2、基于AISynergy-core启动任务,可以参考下面步骤。
鹏程·mPanGu-α2.6B采用混合并行方案,详细技术细节,请参考PanGu-α,
AISynergy
MindSpore >= 1.6
# 起8个端口,对用8路模型并行,使用端口的修改在.sh文件中
bash multi_server_start.sh 8
bash scripts/run_distribute_train_gpu.sh device_number /hostfile /path_to_dataset batchsize 2.6B
ModelArts 提交任务,启动文件:train_client_npu.py
# 起8个端口,对应8路模型并行,使用端口的修改在.sh文件中
bash multi_server_start.sh 8
bash scripts/run_distribute_train_gpu.sh device_number /hostfile /path_to_dataset batchsize 2.6B
ModelArts 提交任务,启动文件:train_client_npu.py
目前训练还在进行,最新结果会及时进行更新
鹏城众智AI协同计算平台AISynergy是一个分布式智能协同计算平台。该平台的目标是通过智算网络基础设施使能数据、算力、模型、网络和服务,完成跨多个智算中心的协同计算作业,进而实现全新计算范式和业务场景,如大模型跨域协同计算、多中心模型聚合、多中心联邦学习等。
Java Vue Python JavaScript Go other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》