一种融合交叉知识注意力的电子病历相似检索方法技术

技术编号:33625109 阅读:7 留言:0更新日期:2022-06-02 00:54
一种融合交叉知识注意力的电子病历相似检索方法,利用知识注意力的相互交叉的方式,提供了电子病历文本间知识信息传递的一种有效模式。知识信息来源两部分,一是文本内的实体信息,二是实体位置信息。电子病历中的实体是作为整体发挥作用的,传统方法只考虑实体内单字的作用,缺乏实体的整体交互作用,知识注意力机制可以很好的刻画实体间的相互关系,交互模式为文本间知识信息传递提供了通道,能够在多文本相似度量方面给出有效评估。在给定原始电子病历文本、若干个判断文本及相似文本标签的情况下,提高了电子病历文本间相似检索精度。度。

【技术实现步骤摘要】
一种融合交叉知识注意力的电子病历相似检索方法


[0001]本专利技术涉及医疗信息化
,具体涉及一种融合交叉知识注意力的电子病历相似检索方法。

技术介绍

[0002]现实世界中,相对于图像、语音格式,自然语言文本由于其易读性与便捷性,越发成为信息传递载体的主要形式。信息时代积累下庞大的文本数据,例如博客文章、网络留言对话、医院电子病历、在线阅读理解文本等,如何准确高效的衡量电子病历文本间相似度是当前面临的一大难题。当前文本相似度量方法如下:传统机器学习方法。基于统计信息的TF

IDF方法,通过统计文本中单字的词频信息,构建出词频向量矩阵,进而利用余弦相似度进行判断;基于最长公共子序列的LCS方法,通过字符匹配的数量进行相似判断;潜在语义分析(LSA)利用单词频数或者TF

IDF作为权值,将文本表示为单词(话题)向量空间中的向量,通过內积运算进行相似判断;概率潜在语义分析(PLSA)与LSA类似,不同在于PLSA中话题是不可观测的;潜在狄利克雷分配(LDA)拓展了PLSA,不同在于LDA假设先验分布是服从狄利克雷分布,通过吉布斯抽样方法进行模型学习,进而生成文本的话题分布。上述传统机器学习方法,只是进行统计意义上的相似度量,没有考虑文本中词语的位置信息,缺乏词语的语义信息度量。
[0003]神经网络模型方法。自2016年以来,神经网络在自然语言文本度量领域得到长足应用。在辅助诊疗领域,2018年清华大学学者通过多层卷积神经网络抽取多维文本特征,建立CAMSE模型,尝试在语义方面预测出当前诊断的疾病编码。在对话领域,2019年微软研究人员预先生成段落、语句、实体多层次的网络结构,通过图神经网络,建立多跳对话模型,衡量当前对话与链接文本的相似性。但是,上述模型并没有考虑文本间知识传递的相互作用,在文本相似评估中融入先验知识信息,仍然是亟待解决的问题。
[0004]交叉注意力机制可以应用在自然语言处理、图像识别等多个领域,也有一些研究成果,例如交叉注意力在语义分割、自然场景文字识别、知识图谱问答和情感分析的应用,但是,融合知识注意力的交叉模式,增强文本间知识信息传递方面,目前研究成果较少。

技术实现思路

[0005]本专利技术为了克服以上技术的不足,提供了一种电子病历文本间相似检索精度高的融合交叉知识注意力的电子病历相似检索方法。
[0006]本专利技术克服其技术问题所采用的技术方案是:
[0007]一种融合交叉知识注意力的电子病历相似检索方法,包括如下步骤:
[0008]a)数据处理:将输入电子病历文本S0和n个电子病历判断文本{S1,S2,...,S
n
},设定最大字符长度为L,将输入电子病历文本中文本长度超过L的部分截掉,不足的部分进行特定字符补全,其中L及n均为正整数;
[0009]b)实体标记获取:利用现有实体库或利用神经网络模型抽取实体信息的方式进行
实体标记;
[0010]c)将电子病历文本S0及n个电子病历判断文本{S1,S2,...,S
n
}的构成的电子病历文本集合{S0,S1,S2,...,S
n
}经步骤b)中实体标记后得到文本实体标签信息;
[0011]d)知识模型构建:将实体标记与电子病历文本S0、n个电子病历判断文本{S1,S2,...,S
n
}中原始字符进行拼接,拼接后一同输入到知识模型,输出文本集合{S1,S2,...,S
n
}中每一个文本相较于S0的相似度概率值;
[0012]e)设定最大返回数量M,从n个电子病历判断文本{S1,S2,...,S
n
}内输出M条S0的相似文本序列,相似程度依次递减,其中M≤n。
[0013]进一步的,步骤a)中通过Padding填充法对不足的部分进行补全。
[0014]a)中L的取值为250。
[0015]进一步的,b)中现有的实体库为cMeKG实体库、中文症状库。
[0016]进一步的,c)包括如下步骤:
[0017]d

1)将电子病历文本S0与一电子病历判断文本S
i
,(i=1,...,n)输入到预训练语言模型,分别生成文本嵌入表示V0∈R
L
×
E
及V
i
∈R
L
×
E
,其中E为预训练语言模型的输出维度,R为实数空间;
[0018]d

2)通过公式利用步骤c)中获得的文本实体标签信息的实体集合表示为E
n
={ent0,ent1,...,ent
K
},K为文本集合{S0,S1,S2,...,S
n
}中最大实体数量,通过公式计算得到文本S
i
中的第j个单字w
i,j
与实体ent
k
之间的距离distance(w
i,j
,ent
k
),得到文本S
i
中每个字的实体位置,其中j≤L,如w
i,j
∈ent
k
,w
i,j
与ent
k
之间距离为0,根据实体位置的最大数量entity_size初始化词嵌入权重矩阵,初始化权重矩阵维度为R
entity_size
×
E
的实体位置嵌入层Entity_Embedding,根据公式B
i
=Entity_Embedding(S
i
)得到文本S
i
的实体位置嵌入B
i
,根据公式B0=Entity_Embedding(S0)得到文本S0的实体位置嵌入B0,B
i
∈R
L
×
E
,B0∈R
L
×
E

[0019]d

3)实体ent
j
中包含n
j
个单字符,其在文本S
i
中的位置为(l,l+n
j

1),l为实体ent
j
在文本S
i
中的起始位置,在V
i
中截取经Meanpooling层,通过公式ENT
i,j
=Meanpooling(V
i
[l:l+n
j

1])∈R
E
计算得到文本实体嵌入ENT
i,j
,通过公式P
i
={ENT
i,1
;ENT
i,2
;...;ENT
i,K
}∈R
K
×
E
将K个实体嵌入进行拼接,得到整体文本的实体嵌入P
i<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合交叉知识注意力的电子病历相似检索方法,其特征在于,包括如下步骤:a)数据处理:将输入电子病历文本S0和n个电子病历判断文本{S1,S2,...,S
n
},设定最大字符长度为L,将输入电子病历文本中文本长度超过L的部分截掉,不足的部分进行特定字符补全,其中L及n均为正整数;b)实体标记获取:利用现有实体库或利用神经网络模型抽取实体信息的方式进行实体标记;c)将电子病历文本S0及n个电子病历判断文本{S1,S2,...,S
n
}的构成的电子病历文本集合{S0,S1,S2,...,S
n
}经步骤b)中实体标记后得到文本实体标签信息;d)知识模型构建:将实体标记与电子病历文本S0、n个电子病历判断文本{S1,S2,...,S
n
}中原始字符进行拼接,拼接后一同输入到知识模型,输出文本集合{S1,S2,...,S
n
}中每一个文本相较于S0的相似度概率值;e)设定最大返回数量M,从n个电子病历判断文本{S1,S2,...,S
n
}内输出M条S0的相似文本序列,相似程度依次递减,其中M≤n。2.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法,其特征在于:步骤a)中通过Padding填充法对不足的部分进行补全。3.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法,其特征在于:步骤a)中L的取值为250。4.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法,其特征在于:步骤b)中现有的实体库为cMeKG实体库、中文症状库。5.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法,其特征在于,步骤c)包括如下步骤:d

1)将电子病历文本S0与一电子病历判断文本S
i
,(i=1,...,n)输入到预训练语言模型,分别生成文本嵌入表示V0∈R
L
×
E
及V
i
∈R
L
×
E
,其中E为预训练语言模型的输出维度,R为实数空间;d

2)通过公式利用步骤c)中获得的文本实体标签信息的实体集合表示为E
n
={ent0,ent1,...,ent
K
},K为文本集合{S0,S1,S2,...,S
n
}中最大实体数量,通过公式计算得到文本S
i
中的第j个单字w
i,j
与实体ent
k
之间的距离distance(w
i,j
,ent
k
),得到文本S
i
中每个字的实体位置,其中j≤L,如w
i,j
∈ent
k
,w
i,j
与ent
k
之间距离为0,根据实体位置的最大数量entity_size初始化词嵌入权重矩阵,初始化权重矩阵维度为R
entity_size
×
E
的实体位置嵌入层Entity_Embedding,根据公式B
i
=Entity_Embedding(S
i
)得到文本S
i
的实体位置嵌入B
i
,根据公式B0=Entity_Embedding(S0)得到文本S0的实体位置嵌入B0,B
i
∈R
L
×
E
,B0∈R
L
×
E
;d

3)实体ent
j
中包含n
j
个单字符,其在文本S
i
中的位置为(l,l+n
j

1),l为实体ent
j
在文本S
i
中的起始位置,...

【专利技术属性】
技术研发人员:樊昭磊吴军何彬彬张伯政张述睿
申请(专利权)人:山东众阳健康科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1