仅显示平台推荐
avadesian / CodeSearchNet 1
${starItems[0]}
CodeSearchNet

CodeSearchNet由GitHub和Microsoft Research-Cambridge研究团队合作推出,该语料库是一个庞大的程序代码和自然语言批注数据集,让研究人员可以用来训练机器学习模型,并且GitHub推出了CodeSearchNet评估环境和排行榜。

创建于:2022-03-29 10:05:56
Open_Dataset / GoEmotions 3
${starItems[1]}
GoEmotions

情感类别包括钦佩、娱乐、愤怒、烦恼、赞同、关心、困惑、好奇、渴望、失望、不赞成、厌恶、尴尬、兴奋、恐惧、感激、悲伤、喜悦、爱、紧张、乐观、骄傲、实现、解脱、悔恨、悲伤、惊

创建于:2020-11-18 10:09:40
DBPediaAmazonYelpYahooSogouAG

广泛的八个数据集,用于文本分类。 来自DBPedia,Amazon,Yelp,Yahoo!,Sogou和AG的数据集。样本大小为120K至3.6M,范围从二进制到14类问题。 https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

创建于:2021-01-04 18:00:25
Open_Dataset / SNLI 0
${starItems[3]}
SNLI

SNLI语料库(1.0版)是一组570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,带有包含,矛盾和中立的标签,支持NLI(RTE)。https://nlp.stanford.edu/projects/snli/

创建于:2020-11-09 11:16:09
CNNandDailyMailSummarization

使用新闻文章进行问答研究的两个数据集。 每个数据集包含许多文档(每个90k和197k),每个文档平均约有4个问题。 https://cs.nyu.edu/~kcho/DMQA/

创建于:2020-12-07 09:36:51
Open_Dataset / BillionWords 2
${starItems[5]}
BillionWords

该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/

创建于:2020-11-09 09:56:57
LargeMovieReviewDataset

用于二进制情感分类的数据集,提供了25,000张极地电影评论供培训,25,000张用于测试也有其他未标记的数据可供使用。 http://ai.stanford.edu/~amaas/data/sentiment/

创建于:2020-11-02 13:13:24
StanfordSentimentTreebank

用于情感分析的数据集,其中包含11855个句子的语法分析树中215154个短语的细粒度情感标签,并为情感组成提出了新挑战。https://nlp.stanford.edu/sentiment/code.html

创建于:2020-11-09 09:46:55
Open_Dataset / AVID 4
${starItems[8]}
AVID

AViD数据集:来自不同国家的匿名视频,AViD是一个大型视频数据集,包含467k个视频和887个动作类。所收集的视频具有知识共享许可证。 https://github.com/piergiaj/AViD

创建于:2020-10-27 11:56:25
xupike / DynaQuestions 41
${starItems[9]}
DynaQuestions

构建了面向军事领域的动态知识图谱 DynaBase,并发布了KBQA 数据集 DynaQuestions。DynaQuestions 包含了2829 条问答对, 其中针对动态知识的问题600条,每个问答对标注了问题类型、Cypher 语句以及答案,能够从新的复杂维度对问答系统的表现进行评价。DynaQuestions 中的问题类型更加多样,其中静态类型的问题能够评测传统问答模型。

创建于:2021-05-25 18:38:02
创建于:2021-04-22 17:25:50
创建于:2022-05-06 17:00:15
创建于:2022-05-22 12:44:34
jikuai / test 0
${starItems[13]}
LCSTS_new

LCSTS中文摘要数据集

创建于:2022-04-19 16:04:46
ruizhou / KG_dataset 0
${starItems[14]}
KG_Datasets

FB15K, FB15K-237, WN18, WN18RR, others

创建于:2022-05-22 20:12:32
test_project02111

这是一个测试数据集

创建于:2021-09-27 09:47:46
north151 / NLP 1
${starItems[16]}
O2O

O2O商铺评论

创建于:2022-04-27 07:47:23
创建于:2022-04-23 13:52:36
OpenModelZoo / SoftMaskedBert 0
${starItems[18]}
csc_processed

processed datasets for soft-masked bert

创建于:2022-04-19 20:44:19
创建于:2022-04-18 14:48:38
Open_Dataset / SciTLDR 0
${starItems[20]}
SciTLDR

在“OpenReview”出版平台上,有将近4000名tldr撰写的关于人工智能研究论文。对于每篇论文,SciTLDR包含至少两个高质量的tldr。

创建于:2020-11-19 19:41:31