当前位置: 首页 > 专利查询>东北大学专利>正文

一种医学实体关系联合抽取方法技术

技术编号:28500611 阅读:35 留言:0更新日期:2021-05-19 22:43
本发明专利技术公开了一种医学实体关系联合抽取方法,涉及实体关系抽取方法。包括:创建面向医疗领域的中文预训练模型ChineseMedBert,并获取训练实例;利用训练实例对ChineseMedBert进行微调,并通过ChineseMedBert获取给定医学文本的词向量表示;根据文本的词向量表示,获取文本的特征向量表示;获取文本的增强语义向量表征;利用文本的增强语义向量表征,预测给定医学文本的标签序列;根据预测的标签序列,抽取出文本的关系三元组。缓解了传统流水线方法的误差累积问题,解决了基于参数共享的联合抽取方法忽略子任务交互信息的问题和医学文本中普遍存在的重叠关系问题,可以有效抽取各种重叠关系类型的事实三元组信息,提高医学实体关系抽取的准确性。关系抽取的准确性。关系抽取的准确性。

【技术实现步骤摘要】
一种医学实体关系联合抽取方法


[0001]本专利技术涉及实体关系抽取方法,具体涉及一种医学实体关系联合抽取方法。

技术介绍

[0002]现如今,知识图谱已应用到各行各业,在医疗领域也得到了广泛的研究与应用。其中,医学知识抽取任务是构建医疗知识图谱的关键。医学知识抽取是指利用人工或自动化的方法从临床数据、医学文献、医学书籍等半结构化或非结构化原始数据中抽取出医疗事实三元组。例如,在"小儿急性喉炎易合并小儿急性喉炎呼吸道感染"这句话中,(小儿急性喉炎,并发症,小儿急性喉炎呼吸道感染)便构成了医疗事实三元组,其中,"小儿急性喉炎"与"小儿急性喉炎呼吸道感染"是疾病类型的实体,二者间的关系属于"并发症"。
[0003]早期的知识抽取采用pipeline(流水线)方法,即先抽取实体,再抽取关系。然而,这种方式存在误差累积问题,实体抽取的准确性会密切影响关系抽取,且忽略了实体与关系之间的内在联系和依赖关系。近年来,许多研究工作考虑将实体识别和关系抽取任务进行联合建模,这种端到端的模型会有更优的效果。现有的许多研究工作通过参数共享,例如,共享输入特征本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医学实体关系联合抽取方法,其特征在于,包括:步骤1:获取训练实例以及面向医疗领域的中文预训练模型ChineseMedBert;步骤2:利用获得的训练实例对ChineseMedBert进行微调,并通过微调后的ChineseMedBert获取给定医学文本的词向量表示;步骤3:根据给定医学文本的词向量表示,获取给定医学文本的特征向量表示;步骤4:获取给定医学文本的增强语义向量表征;步骤5:利用文本的增强语义向量表征,预测给定医学文本的标签序列;步骤6:根据预测的标签序列,抽取出给定医学文本的关系三元组。2.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,所述获取训练实例的方法为:获取现有中文医学领域的实体关系联合抽取数据集,并对数据集中的文本进行序列标注,得到与文本对应的标签序列作为训练实例。3.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,获取面向医疗领域的中文预训练模型ChineseMedBert的方法为:使用若干中文医学文献对Bert中文预训练模型进行再训练,得到面向医疗领域的中文预训练模型ChineseMedBert。4.根据权利要求2所述的医学实体关系联合抽取方法,其特征在于,所述现有中文医学领域的实体关系联合抽取数据集为中文医学信息抽取数据集CMeIE。5.根据权利要求2所述的医学实体关系联合抽取方法,其特征在于,所述序列标注的模式为:基于BIO标注模式,一方面按照标注顺序依次增加头实体类型、尾实体类型、关系类型以及实体位置的标注,且采取自定义不同的标签分别对头实体类型、尾实体类型、关系类型以及实体位置进行标注;另一方面,对于待标注当前字所属实体对应两个以上头实体、待标注当前字所属实体对应两个以上尾实体、待标注当前字所属实体参与两个以上不同类型的关系、以及待标注当前字处于重叠关系中的不同位置这四种情况分别使用自定义的特定标签分别对应地对当前字的头实体类型标注位置处、尾实体类型标注位置处、关系类型标...

【专利技术属性】
技术研发人员:杨晓春郑婷月李雨繁王斌
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1