汀丶人工智能 - OpenI - 启智AI开源社区提供普惠算力！

汀丶人工智能 ting

浙江杭州
https://blog.csdn.net/sinat_39620217?type=blog
将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识项目，以及分享自己学习到的知识技能，感谢大家关注！
Joined on Dec 01, 2022
Organization
- RoadToPPDE
- 32
- 77
- ting_AI
- 1
- 1

code

Updated 7 months ago

DeepLearning

Updated 8 months ago

Keras-Attention

Updated 8 months ago

基于触发词的燃气事件抽取

Updated 1 year ago

合同数据集

Updated 1 year ago

数据集含码源

Updated 1 year ago

莱斯杯机器阅读理解本次竞赛将提供面向军事应用场景的大规模中文阅读理解数据集，围绕多文档机器阅读理解进行竞赛，涉及理解、推理等复杂技术。每个问题对应五篇候选文章，问题与篇章中的答案证据句间存在较大的语法与句式变化。需要在多篇章定位与深度理解的基础上，从存在干扰项的多篇文章中搜寻出最优答案，更富挑战性的是问题的答案可能需要结合至少两篇文章的相关内容，进行关联推断才能够准确得出。数据清洗后，24615个问题，24615个段落，不能回答的问题个数为0。数据清洗时，将文本用句号分割，选择最多5句，作为段落内容。答案为原始答案与段落f1值最高的片段。

Updated 1 year ago

法研杯 2019裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本任务是首次基于中文裁判文书的阅读理解比赛，属于篇章片段抽取型阅读理解比赛（Span-Extraction Machine Reading Comprehension）。数据清洗后，51333个问题，10000个段落，不能回答的问题个数为10413。

Updated 1 year ago

中医数据集本次标注数据源来自中医药领域文本，包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源，共标注 13000对（问题、文档、答案），来源于5000篇文档，每篇文档由人工标注产生1～4对(问题, 答案)对。数据清洗后，18478个问题，5881个段落，不能回答的问题个数为20。

Updated 1 year ago

chinese-squad中文机器阅读理解数据集，本数据集通过机器翻译加人工校正的方式从原始Squad转换而来，其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案（短答案翻译和文档翻译有出入），故数据量对比原始英文版SQuAD 有所减少。数据清洗后，125892个问题，36100个段落，不能回答的问题个数为49443。

Updated 1 year ago

cmrc2018第二届“讯飞杯”中文机器阅读理解评测数据清洗后，14363个问题，3507个段落，不能回答的问题个数为0。

Updated 1 year ago

DRCD台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。本资料集从2,108篇维基条目中整理出10,014篇段落，并从段落中标注出30,000多个问题数据清洗后，33953个问题，10014个段落，不能回答的问题个数为0。

Updated 1 year ago

微博摘要数据集：数据来源于新浪微博，由He Zhengfang大佬整理，整理后数据信息如下：总数量：450295个样本；标题：平均字数 18，字数标准差 5，最大字数 95，最小数字 4；正文：平均字数 123，字数标准差 30，最大字数 1873，最小数字 100；

Updated 1 year ago

微信公众号摘要数据微信公众号摘要数据是github作者nonamestreet整理，从网络抓取的微信公众号的文章。整理后数据信息如下：总数量：712826个样本；标题：平均字数 22，字数标准差 11，最大字数 4984，最小数字 4；正文：平均字数 1499，字数标准差 1754，最大字数 34665，最小数字 107；

Updated 1 year ago

UIE模型实战实体抽取任务-打车数据-快递单数据集

Updated 1 year ago

1 2 3

Datasets