使用100G中文高质量语料,128张V100,训练的中文Megatron模型,参数量2.6B
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 
 

523 B

Megatron 中文预训练模型

本模型使用Megatron代码训练,使用了清源公布的3万字词表,数据使用100G高质量中文语料

模型参数2.6B,模型采用GPT结构,使用了数据并行和张量并行并行方式,模型文件可以在数据集中下载。

或百度网盘:
链接:https://pan.baidu.com/s/17x4ZpcS8b7zabWtKtsiWOw
提取码:ep3f

模型的训练和推理与英伟达的Megatron代码一致,使用说明请参考NVIDIA-Megatron: https://github.com/NVIDIA/Megatron-LM