ZhangbuDong aa55520414 | 1 year ago | |
---|---|---|
README.md | 1 year ago |
实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。
给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如:
(“subject_type”:“疾病”,“predicate”: “药物治疗”,“object_type”:“药物”)
(“subject_type”:“疾病”,“predicate”: “实验室检查”,“object_type”:“检查”)。
任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
下表中展示了数据集中包含的53个schema,包含10种同义词子关系(表1中合并为一种),43种其他子关系。
4.评测数据
本评测开放训练集数据14339条,验证集数据3585条,测试集数据4482条。数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。
数据集名称为:CMeIE(Chinese Medical Information Extraction dataset)
数据集下载文件为:CMeIE.zip, 包括:
53_schema.jsonl: SPO关系约束表
CMeIE_train.jsonl: 训练集
CMeIE_dev.jsonl: 验证集
CMeIE_test.jsonl: 测试集, 选手提交的时候需要为每条记录填充"spo_list"字段,类型为列表。每个识别出来的关系必须包含"subject", "predicate", "object"3个字段,且"object"是一个字典(和训练数据保持一致): {"@value": "some string"}。请注意,CBLUE2.0的提交结果文件后缀名变更为jsonl
example_gold.jsonl: 标准答案示例
example_pred.jsonl: 提交结果示例
README.txt: 说明文件
数据集提供方
郑州大学自然语言处理实验室,河南郑州 450001。
北京大学计算语言学教育部重点实验室,北京 100871。
鹏城实验室人工智能研究中心智慧医疗课题组,广东深圳 518052。
哈尔滨工业大学,深圳 518000。
{
"text": "慢性胰腺炎@ ###低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并且已经开始被用于非肿瘤性疼痛的治疗。",
"spo_list": [
{
"Combined": true,
"predicate": "放射治疗",
"subject": "慢性胰腺炎",
"subject_type": "疾病",
"object": { "@value": "外照射" },
"object_type": { "@value": "其他治疗" }
},
{
"Combined": true,
"predicate": "放射治疗",
"subject": "非肿瘤性疼痛",
"subject_type": "疾病",
"object": { "@value": "外照射" },
"object_type": { "@value": "其他治疗" }
}
}
]
}
@book{2020CMeIE,
title={CMeIE: Construction and Evaluation of Chinese Medical Information Extraction Dataset},
author={ Guan, T. and Zan, H. and Zhou, X. and Xu, H. and K Zhang},
publisher={Natural Language Processing and Chinese Computing, 9th CCF International Conference, NLPCC 2020, Zhengzhou, China, October 14–18, 2020, Proceedings, Part I},
year={2020}, }
实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。 本任务就是在这样的背景下产生的,并在CHIP2020会议发布了评测任务(http://cip
other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》