CodeSearchNet由GitHub和Microsoft Research-Cambridge研究团队合作推出,该语料库是一个庞大的程序代码和自然语言批注数据集,让研究人员可以用来训练机器学习模型,并且GitHub推出了CodeSearchNet评估环境和排行榜。
该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/