汀丶人工智能 ting

Datasets

code
knowledge graph natural language processing 1

code

Updated 7 months ago

DeepLearning
machine translation computer vision 0

DeepLearning

Updated 8 months ago

Keras-Attention
target detection computer vision 0

Keras-Attention

Updated 8 months ago

EventExtraction
information extraction natural language processing 1

基于触发词的燃气事件抽取

Updated 1 year ago

Contract-dataset
information extraction natural language processing 0

合同数据集

Updated 1 year ago

ner
information extraction natural language processing 1

数据集含码源

Updated 1 year ago

RiceCupmachine-Readingcomprehension
question answering system natural language processing 10

莱斯杯机器阅读理解 本次竞赛将提供面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。每个问题对应五篇候选文章,问题与篇章中的答案证据句间存在较大的语法与句式变化。需要在多篇章定位与深度理解的基础上,从存在干扰项的多篇文章中搜寻出最优答案,更富挑战性的是问题的答案可能需要结合至少两篇文章的相关内容,进行关联推断才能够准确得出。 数据清洗后,24615个问题,24615个段落,不能回答的问题个数为0。数据清洗时,将文本用句号分割,选择最多5句,作为段落内容。答案为原始答案与段落f1值最高的片段。

Updated 1 year ago

2019SMP
question answering system natural language processing 1

法研杯 2019裁判文书中包含了丰富的案件信息,比如时间、地点、人物关系等等,通过机器智能化地阅读理解裁判文书,可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本任务是首次基于中文裁判文书的阅读理解比赛,属于篇章片段抽取型阅读理解比赛(Span-Extraction Machine Reading Comprehension)。数据清洗后,51333个问题,10000个段落,不能回答的问题个数为10413。

Updated 1 year ago

TCMdataset
question answering system natural language processing 3

中医数据集本次标注数据源来自中医药领域文本,包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源,共标注 13000对(问题、文档、答案),来源于5000篇文档,每篇文档由人工标注产生1~4对(问题, 答案)对。 数据清洗后,18478个问题,5881个段落,不能回答的问题个数为20。

Updated 1 year ago

chinese-squad-
question answering system computer vision 1

chinese-squad中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来,其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案(短答案翻译和文档翻译有出入),故数据量对比原始英文版SQuAD 有所减少。数据清洗后,125892个问题,36100个段落,不能回答的问题个数为49443。

Updated 1 year ago

cmrc2018-data
question answering system natural language processing 1

cmrc2018第二届“讯飞杯”中文机器阅读理解评测数据清洗后,14363个问题,3507个段落,不能回答的问题个数为0。

Updated 1 year ago

DeltaReadingComprehension-Dataset
question answering system natural language processing 1

DRCD台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。 本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。 本资料集从2,108篇维基条目中整理出10,014篇段落,并从段落中标注出30,000多个问题数据清洗后,33953个问题,10014个段落,不能回答的问题个数为0。

Updated 1 year ago

weibo_data
automatic digest natural language processing 1

微博摘要数据集:数据来源于新浪微博,由He Zhengfang大佬整理,整理后数据信息如下: 总数量:450295个样本; 标题:平均字数 18,字数标准差 5,最大字数 95,最小数字 4; 正文:平均字数 123,字数标准差 30,最大字数 1873,最小数字 100;

Updated 1 year ago

weixin_date
automatic digest natural language processing 2

微信公众号摘要数据微信公众号摘要数据是github作者nonamestreet整理,从网络抓取的微信公众号的文章。 整理后数据信息如下: 总数量:712826个样本; 标题:平均字数 22,字数标准差 11,最大字数 4984,最小数字 4; 正文:平均字数 1499,字数标准差 1754,最大字数 34665,最小数字 107;

Updated 1 year ago

data_A1
information extraction natural language processing 2

UIE模型实战实体抽取任务-打车数据-快递单数据集

Updated 1 year ago