仅显示平台推荐
avadesian / CodeSearchNet 1
${starItems[0]}
CodeSearchNet

CodeSearchNet由GitHub和Microsoft Research-Cambridge研究团队合作推出,该语料库是一个庞大的程序代码和自然语言批注数据集,让研究人员可以用来训练机器学习模型,并且GitHub推出了CodeSearchNet评估环境和排行榜。

创建于:2022-03-29 10:05:56
Open_Dataset / BillionWords 2
${starItems[1]}
BillionWords

该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/

创建于:2020-11-09 09:56:57