ZhangbuDong aa55520414 更新 'README.md'		1 year ago
README.md	更新 'README.md'	1 year ago

README.md

CMeIE中文医学文本实体关系抽取

CMeIE中文医学文本实体关系抽取

实体和关系抽取作为信息抽取的重要子任务，近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域，抽取非结构化和半结构化的医学文本构建成医学知识图谱，可服务于下游子任务。非结构化的医学文本，如医学教材每一个自然段落，临床实践中每种疾病下的主题，电子病历数据中的主诉、现病史、鉴别诊断等，都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体，并确定实体对关系事实的过程。

给定schema约束集合及句子sentence，其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别，例如：
（“subject_type”:“疾病”，“predicate”: “药物治疗”，“object_type”:“药物”）
（“subject_type”:“疾病”，“predicate”: “实验室检查”，“object_type”:“检查”）。
任务要求参评系统自动地对句子进行分析，输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
下表中展示了数据集中包含的53个schema，包含10种同义词子关系（表1中合并为一种），43种其他子关系。

数据集介绍

4.评测数据
本评测开放训练集数据14339条，验证集数据3585条，测试集数据4482条。数据集包含儿科训练语料和百种常见疾病训练语料，儿科训练语料来源于518种儿科疾病，百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据，2.8万疾病语句和53种定义好的schema。

数据集名称为：CMeIE(Chinese Medical Information Extraction dataset)

数据集下载文件为：CMeIE.zip, 包括：

53_schema.jsonl: SPO关系约束表
CMeIE_train.jsonl: 训练集
CMeIE_dev.jsonl: 验证集
CMeIE_test.jsonl: 测试集, 选手提交的时候需要为每条记录填充"spo_list"字段，类型为列表。每个识别出来的关系必须包含"subject", "predicate", "object"3个字段，且"object"是一个字典（和训练数据保持一致）: {"@value": "some string"}。请注意，CBLUE2.0的提交结果文件后缀名变更为jsonl
example_gold.jsonl: 标准答案示例
example_pred.jsonl: 提交结果示例
README.txt: 说明文件

数据集提供方
郑州大学自然语言处理实验室，河南郑州 450001。
北京大学计算语言学教育部重点实验室，北京 100871。
鹏城实验室人工智能研究中心智慧医疗课题组，广东深圳 518052。
哈尔滨工业大学，深圳 518000。

数据样例

{  
  "text": "慢性胰腺炎@ ###低剂量放射 自1964年起，有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲，外照射可以起到抗炎和止痛作用，并且已经开始被用于非肿瘤性疼痛的治疗。", 
  "spo_list": [ 
    { 
      "Combined": true, 
      "predicate": "放射治疗", 
      "subject": "慢性胰腺炎", 
      "subject_type": "疾病", 
      "object": { "@value": "外照射" }, 
      "object_type": { "@value": "其他治疗" } 
    }, 
    { 
      "Combined": true, 
      "predicate": "放射治疗", 
      "subject": "非肿瘤性疼痛", 
      "subject_type": "疾病", 
      "object": { "@value": "外照射" }, 
      "object_type": { "@value": "其他治疗" } 
      }
    }
  ] 
}

How to Cite

@book{2020CMeIE,  
  title={CMeIE: Construction and Evaluation of Chinese Medical Information Extraction Dataset},   
  author={ Guan, T.  and  Zan, H. and Zhou, X. and Xu, H. and K Zhang}, 
  publisher={Natural Language Processing and Chinese Computing, 9th CCF International Conference, NLPCC 2020, Zhengzhou, China, October 14–18, 2020, Proceedings, Part I}, 
  year={2020}, }

实体和关系抽取作为信息抽取的重要子任务，近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域，抽取非结构化和半结构化的医学文本构建成医学知识图谱，可服务于下游子任务。非结构化的医学文本，如医学教材每一个自然段落，临床实践中每种疾病下的主题，电子病历数据中的主诉、现病史、鉴别诊断等，都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体，并确定实体对关系事实的过程。本任务就是在这样的背景下产生的，并在CHIP2020会议发布了评测任务(http://cip

other

How to access data resources in code

README.md

CMeIE中文医学文本实体关系抽取

数据集介绍

数据样例

How to Cite

Contributors (1) All

Contributors (1)
All