当前位置: 首页 > 专利查询>内蒙古大学专利>正文

基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统技术方案

技术编号:33703841 阅读:45 留言:0更新日期:2022-06-06 08:21
本发明专利技术提供一种基于XLNet

【技术实现步骤摘要】
基于XLNet

BiGRU

CRF模型的电子病历命名实体标准化方法和系统


[0001]本专利技术涉及数据处理
,具体涉及一种基于XLNet

BiGRU

CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备。

技术介绍

[0002]电子病历是计算机信息系统存储、管理和传输的医疗记录,包含医务人员在为患者诊疗过程中记录的关于患者病史、临床表现、治疗方法等数字化信息。由于电子病历大多是半结构化和非结构化的数据,对其进行分析处理和数据挖掘受到严重制约。命名实体识别是发现和识别自然文本中的专有名词和有意义的词语,并将其归类到预定义的类别中,是自然语言处理任务中的一项重要分支。运用命名实体识别技术对电子病历文本进行分析研究,目的是自动地识别、分类电子病历中的医疗命名实体并将其标准化。
[0003]传统的电子病历命名实体识别研究主要分为基于字典和规则的方法、基于统计学的机器学习方法以及深度学习方法。其中,基于字典和规则方法需要根据短语搭配模式及词汇特征人工构建实体抽取规则,虽然能在特定领域取得较好的效果,但需要大量专家知识且召回率低。基于统计机器学习方法有隐马尔可夫模型、支持向量机、条件随机场、最大熵模型等。主要依据标注好的训练集定义特征集,应用传统机器学习算法训练统计模型,其识别性能与设计的特征密切相关。基于深度学习方法近年来得到广泛的应用和突破性进展,包括循环神经网络模型(RNN)、卷积神经网络(CNN)、门控神经网络(GRU)等。深度学习方法与机器学习模型相比,能学习到高维度与深层次的特征表示,有利于提高实体识别的泛化能力,该方法基于神经网络的深度学习,较传统机器学习方法的优势是无需特征工程和人工构造规则模板,节省了人力物力。
[0004]然而医疗命名实体识别属于特定领域的命名实体识别,旨在识别电子病历中的一些重要概念,包括症状、疾病名称等。电子病历命名实体并标准化仍面临着一些困难与挑战,病历文本相比于通用领域文本,病历命名实体存在(1)字符长度大;(2)生僻词多;(3)命名实体间相互嵌套等情况。因此,医疗领域电子病历命名实体识别成为一项具有挑战性的任务,医疗命名实体识别性能有待进一步提高。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于XLNet

BiGRU

CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备,解决了医疗命名实体识别性能有待提高的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于XLNet

BiGRU

CRF模型的电子病历命名实体标准化方法,包括:
[0010]S1、获取并预处理待识别的电子病历语料;
[0011]S2、将预处理后的待识别的电子病历语料输入XLNet子模型中,获取第一Embedding词向量,所述XLNet模型包括排列语言模型、双流注意力机制和Transformer

XL核心组件;
[0012]S3、将所述第一Embedding词向量输入BiGRU

CRF子模型中,获取所述待识别的电子病历语料对应的实体识别结果;
[0013]S4、根据所述实体识别结果,提取预设的Neo4j数据库中具有对应实体的若干个相关三元组数据,所述三元组数据由原实体、实体类别、标准实体组成;
[0014]S5、将所述第一Embedding词向量与所述若干相关三元组数据对应的第二Embedding词向量分别作余弦相似度比较,将相似度得分最高的词对应的标准实体作为目标映射实体结果;
[0015]S6、将预设的标准表作为基准表,将所述目标映射实体结果向所述基准表上进行映射,获取最终的电子病历标准实体,所述映射过程包括机器处理和人工标注。
[0016]优选的,所述S1中预处理包括将所述待识别的电子病历语料进行脱敏处理和人工序列标注。
[0017]优选的,所述S2中的排列语言模型包括:
[0018][0019]其中,表示所有排列组合的期望,p
θ
是条件概率,是分解顺序中的第t个token,x
α<t
是第t个token之前的所有tokens,即重排列语言建模的目标函数,以t

1个tokens为上下文,预测第t个tokens;
[0020]所述双流注意力机制包括询问表征单元和内容表征单元:
[0021][0022][0023]其中,为额外输入的预测目标词的位置信息,表示文本序列中各个位置之间的相关性;
[0024]所述Transformer

XL核心组件包括:
[0025][0026]其中,Q、K、V均是输入字向量矩阵,dim为输入向量维度。
[0027]优选的,所述S4中Neo4j数据库的构建过程包括:
[0028]对训练语料的数据,以及预先获取的卫健委标准数据集进行分类标注处理,形成三元组数据存入到所述Neo4j数据库。
[0029]优选的,所述S5中BiGRU

CRF子模型包括:
[0030]z
t
=σ(w
z
·
[h
t
‑1,x
t
])
[0031]r
t
=σ(w
r
·
[h
t
‑1,x
t
])
[0032][0033][0034]其中,x
t
表示当前t时刻的输入向量,在所述待识别的电子病历语料中表示第t个单词的特征向量;h
t
、h
t
‑1分别表示当前t时刻和前一时刻的隐藏层状态矩阵向量;表示当前t时刻的候选隐藏层状态,也是当前时刻新的记忆;z
t
表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,z
t
的值越大说明前一时刻的状态信息保留越多;r
t
表示重置门,用于控制忽略前一时刻的状态信息的程度,r
t
的值越小说明舍弃的越多;w
z
、w
r
、分别表示更新门、重置门以及候选隐藏状态的权重矩阵;σ表示sigmoid非线性激活函数,tanh表示tanh激活函数,*表示向量的点乘;
[0035]经过BiGRU网络编码单元的输出向量为Z,将输出向量Z进行softmax概率归一化后,输入到CRF层。
[0036]优选的,所述S5中BiGRU

CRF子模型还包括:
[0037]对于一个给定的输入序列X,把预测输出标签序列y的概率定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XLNet

BiGRU

CRF模型的电子病历命名实体标准化方法,其特征在于,包括:S1、获取并预处理待识别的电子病历语料;S2、将预处理后的待识别的电子病历语料输入XLNet子模型中,获取第一Embedding词向量,所述XLNet模型包括排列语言模型、双流注意力机制和Transformer

XL核心组件;S3、将所述第一Embedding词向量输入BiGRU

CRF子模型中,获取所述待识别的电子病历语料对应的实体识别结果;S4、根据所述实体识别结果,提取预设的Neo4j数据库中具有对应实体的若干个相关三元组数据,所述三元组数据由原实体、实体类别、标准实体组成;S5、将所述第一Embedding词向量与所述若干相关三元组数据对应的第二Embedding词向量分别作余弦相似度比较,将相似度得分最高的词对应的标准实体作为目标映射实体结果;S6、将预设的标准表作为基准表,将所述目标映射实体结果向所述基准表上进行映射,获取最终的电子病历标准实体,所述映射过程包括机器处理和人工标注。2.如权利要求1所述的电子病历命名实体标准化方法,其特征在于,所述S1中预处理包括将所述待识别的电子病历语料进行脱敏处理和人工序列标注。3.如权利要求1所述的电子病历命名实体标准化方法,其特征在于,所述S2中的排列语言模型包括:其中,表示所有排列组合的期望,p
θ
是条件概率,是分解顺序中的第t个token,x
α
<t是第t个token之前的所有tokens,即重排列语言建模的目标函数,以t

1个tokens为上下文,预测第t个tokens;所述双流注意力机制包括询问表征单元和内容表征单元:所述双流注意力机制包括询问表征单元和内容表征单元:其中,为额外输入的预测目标词的位置信息,表示文本序列中各个位置之间的相关性;所述Transformer

XL核心组件包括:其中,Q、K、V均是输入字向量矩阵,dim为输入向量维度。4.如权利要求3所述的电子病历命名实体标准化方法,其特征在于,所述S4中Neo4j数据库的构建过程包括:对训练语料的数据,以及预先获取的卫健委标准数据集进行分类标注处理,形成三元
组数据存入到所述Neo4j数据库。5.如权利要求3所述的电子病历命名实体标准化方法,其特征在于,所述S5中BiGRU

CRF子模型包括:z
t
=σ(w
z
·
[h
t
‑1,x
t
])r
t
=σ(w
r
·
[h
t
‑1,x
t
])])其中,x
t
表示当前t时刻的输入向量,在所述待识别的电子病历语料中表示第t个单词的特征向量;h
t
、h
t
‑1分别表示当前t时刻和前一时刻的隐藏层状态矩阵向量;表示当前t时刻的候选隐藏层状态,也是当前时刻新的记忆;z
t
表示...

【专利技术属性】
技术研发人员:杨雨张培龙李华王显荣刘玉林
申请(专利权)人:内蒙古大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1