一种面向电子病历解析的关系抽取方法技术

技术编号:39598813 阅读:12 留言:0更新日期:2023-12-03 19:57
本发明专利技术公开了一种面向电子病历解析的关系抽取方法,包括如下步骤:步骤

【技术实现步骤摘要】
一种面向电子病历解析的关系抽取方法


[0001]本专利技术涉及深度学习
,具体涉及一种面向电子病历解析的关系抽取方法


技术介绍

[0002]随着医疗信息化

医疗智能化的不断发展,海量的医疗数据

医学知识被不断的积累和迭代,对医学数据的理解和利用越来越重要

电子病历档案是构建智慧医疗体系的重要基石,它记录了患者的诊断和治疗全过程信息(包括患者基本信息

病程记录

检验检查结果

手术记录

护理记录

医嘱等),能够显著提高医生之间的信息交换,让医生可以全面了解患者病史,而不仅是当次就诊时的快照式概述,从而做出快速准确的诊断

[0003]知识图谱作为人类知识信息的一种智能化

结构化的存储与表示方式,具有表达能力强

拓展性好等特点,很快被引入到海量医疗数据的管理与应用中,并形成了一套完整的基于知识图谱的医疗大数据技术体系,即通过知识图谱构建技术整合多源异构的医疗数据,将复杂的非结构化医疗数据转换为结构化的知识形式存储在知识图谱的格式化框架中

[0004]关系抽取作为医学知识图谱构建过程中的核心任务,需要通过实体识别和关系抽取两个子任务,将结构化或非结构化的医学知识转化为结构化的三元组形式,以方便计算机对知识进行理解和处理

然而,医疗文本往往呈现出实体描述性文本长度较长,语义结构复杂等特点,例如“hereditary nonpolyposis colorectal cancer syndrome
(遗传性非息肉病结直肠癌综合症)”。
为了准确表述医学实体之间的关系,常常使用复杂句式表示其含义

而目前的关系抽取方法难以解析并捕获包含大量结构复杂且句子长度偏长的医疗文本语义

此外,医学知识专业性强

复杂度高

标注成本高,现有的知识抽取模型难以适应医学知识的复杂性,且难以为基于机器学习模型的医学人工智能提供足够的标注数据,严重制约了医疗知识图谱的自动化构建效率

[0005]综上所述,急需一种面向电子病历解析的关系抽取方法以解决现有技术中存在的问题


技术实现思路

[0006]本专利技术目的在于提供一种面向电子病历解析的关系抽取方法,具体技术方案如下:一种面向电子病历解析的关系抽取方法,其特征在于,包括如下步骤:步骤
S1
,训练教师模型:分别将句子袋级数据和句子级数据输入教师模型,基于自适应温度和注意力组合机制得到袋级教师模型预测和句级教师模型预测,以多层级知识蒸馏监督计算教师知识;以袋级教师模型预测和远程监督标签计算教师模型总损失,基于教师模型总损失和反向传播方法训练教师模型,更新教师模型参数,完成教师模型的训练;步骤
S2
,训练学生模型:将句子级数据输入学生模型,基于自适应温度和教师知识
得到句级学生模型预测,基于句级学生模型预测以及袋级教师模型预测中的教师知识计算知识蒸馏损失,以知识蒸馏损失和学生模型交叉熵损失计算得到学生模型总损失,基于学生模型总损失和反向传播方法训练学生模型,更新学生模型参数,完成学生模型的训练;步骤
S3
,进行关系抽取:基于步骤
S1
中的教师模型和步骤
S2
中的学生模型构建多级知识蒸馏关系抽取模型,利用所述多级知识蒸馏关系抽取模型对输入的数据进行关系抽取;教师模型总损失的表达式如下:;其中,表示教师模型总损失,是数据集中包含的句子袋数量;表示袋级的远程监督标签,;表示关系的个数,表示袋级教师模型预测;采用库勒贝克

莱布勒散度作为学生模型的知识蒸馏损失,知识蒸馏损失的表达式如下:;其中,表示学生模型和教师模型的库勒贝克

莱布勒散度;为数据集中的句子数量;表示学生模型的预测,,表示句子的软化标签;表示教师知识;学生模型总损失的表达式如下:;其中,表示权重超参数;表示学生模型交叉熵损失

[0007]优选的,所述句子袋级数据为多个句子级数据组合成的一个矩阵

[0008]优选的,注意组合机制的表达式如下:;其中,表示袋级教师模型预测;表示教师知识,,表示第个句子袋的软化标签;表示第个句子袋中所有句子的向量矩阵,,表示第个句子的向量矩阵;表示
softmax
函数;表示将转化成形状为的各句子的权重的可学习的转换操作

[0009]优选的,所述教师知识的表达式如下:;
其中,表示用于控制袋级教师模型预测和句级教师模型预测的重要性权重的超参数,

[0010]优选的,
softmax
函数的表达式如下:;其中,表示第个句子的软预测,表示第个句子的
logit
向量,表示第个句子的自适应温度

[0011]优选的,自适应温度的计算表达式如下:;其中,表示超参数,;表示关系的个数,表示第个句子的熵,表示双曲正切函数

[0012]优选的,熵的计算表达式如下:;;其中,表示不软化的第个关系的概率

[0013]应用本专利技术的技术方案,具有以下有益效果:(1)本专利技术提出的关系抽取方法采用句子级数据和句子袋级数据分别进行句级训练和袋级训练,并构建了多层级的知识蒸馏监督方法获取教师知识,其中句级别的训练保证了本专利技术方法对样本的充分学习,使得教师知识具有精确性,而基于注意力组合机制的袋级训练保证本专利技术方法不会因为单个错误样本而导致学习到偏见的知识,不同级别的结合保证了教师知识的准确性和精确性

[0014](2)本专利技术提出的关系抽取方法采用自适应温度控制标签软化方向和程度,本专利技术中的自适应温度计算方法可以将较低的温度分配给熵值较高的预测,实现了灵活软化的能力,当预测不平均时候使标签软化,当预测趋向于平均时使标签硬化

本专利技术提出的关系抽取方法能够根据预测的分布确认标签应该软化或硬化,避免传达错误或者偏见的知识

另外,本专利技术考虑到了温度硬化的可能性,硬化标签使得预测的分布变平,软化标签则不会向学生模型传达有意义的信息

[0015]除了上面所描述的目的

特征和优点之外,本专利技术还有其它的目的

特征和优点

下面将参照图,对本专利技术作进一步详细的说明

附图说明
[0016]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定

在附图中:图1是本专利技术优选实施例中关系抽取方法的步骤流程图;图2是本专利技术优选实施例中多级本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向电子病历解析的关系抽取方法,其特征在于,包括如下步骤:步骤
S1
,训练教师模型:分别将句子袋级数据和句子级数据输入教师模型,基于自适应温度和注意力组合机制得到袋级教师模型预测和句级教师模型预测,以多层级知识蒸馏监督计算教师知识;以袋级教师模型预测和远程监督标签计算教师模型总损失,基于教师模型总损失和反向传播方法训练教师模型,更新教师模型参数,完成教师模型的训练;步骤
S2
,训练学生模型:将句子级数据输入学生模型,基于自适应温度和教师知识得到句级学生模型预测,基于句级学生模型预测以及袋级教师模型预测中的教师知识计算知识蒸馏损失,以知识蒸馏损失和学生模型交叉熵损失计算得到学生模型总损失,基于学生模型总损失和反向传播方法训练学生模型,更新学生模型参数,完成学生模型的训练;步骤
S3
,进行关系抽取:基于步骤
S1
中的教师模型和步骤
S2
中的学生模型构建多级知识蒸馏关系抽取模型,利用所述多级知识蒸馏关系抽取模型对输入的数据进行关系抽取;教师模型总损失的表达式如下:;其中,表示教师模型总损失,是数据集中包含的句子袋数量;表示袋级的远程监督标签,;表示关系的个数,表示袋级教师模型预测;采用库勒贝克

莱布勒散度作为学生模型的知识蒸馏损失,知识蒸馏损失的表达式如下:;其中,表示学生模型和教师模型的库勒贝克

莱布勒散度;为数据集中的句子数量;表示学生模型的预测,...

【专利技术属性】
技术研发人员:黄文体何雨陈嘉懿尹卓英
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1