【技术实现步骤摘要】
基于XLNet
‑
BiGRU
‑
CRF模型的电子病历命名实体标准化方法和系统
[0001]本专利技术涉及数据处理
,具体涉及一种基于XLNet
‑
BiGRU
‑
CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备。
技术介绍
[0002]电子病历是计算机信息系统存储、管理和传输的医疗记录,包含医务人员在为患者诊疗过程中记录的关于患者病史、临床表现、治疗方法等数字化信息。由于电子病历大多是半结构化和非结构化的数据,对其进行分析处理和数据挖掘受到严重制约。命名实体识别是发现和识别自然文本中的专有名词和有意义的词语,并将其归类到预定义的类别中,是自然语言处理任务中的一项重要分支。运用命名实体识别技术对电子病历文本进行分析研究,目的是自动地识别、分类电子病历中的医疗命名实体并将其标准化。
[0003]传统的电子病历命名实体识别研究主要分为基于字典和规则的方法、基于统计学的机器学习方法以及深度学习方法。其中,基于字典和规则方法需要根据短语搭配模式及词汇特征人工构建实体抽取规则,虽然能在特定领域取得较好的效果,但需要大量专家知识且召回率低。基于统计机器学习方法有隐马尔可夫模型、支持向量机、条件随机场、最大熵模型等。主要依据标注好的训练集定义特征集,应用传统机器学习算法训练统计模型,其识别性能与设计的特征密切相关。基于深度学习方法近年来得到广泛的应用和突破性进展,包括循环神经网络模型(RNN)、卷积神经网络(CNN)、门控神经网络(G ...
【技术保护点】
【技术特征摘要】
1.一种基于XLNet
‑
BiGRU
‑
CRF模型的电子病历命名实体标准化方法,其特征在于,包括:S1、获取并预处理待识别的电子病历语料;S2、将预处理后的待识别的电子病历语料输入XLNet子模型中,获取第一Embedding词向量,所述XLNet模型包括排列语言模型、双流注意力机制和Transformer
‑
XL核心组件;S3、将所述第一Embedding词向量输入BiGRU
‑
CRF子模型中,获取所述待识别的电子病历语料对应的实体识别结果;S4、根据所述实体识别结果,提取预设的Neo4j数据库中具有对应实体的若干个相关三元组数据,所述三元组数据由原实体、实体类别、标准实体组成;S5、将所述第一Embedding词向量与所述若干相关三元组数据对应的第二Embedding词向量分别作余弦相似度比较,将相似度得分最高的词对应的标准实体作为目标映射实体结果;S6、将预设的标准表作为基准表,将所述目标映射实体结果向所述基准表上进行映射,获取最终的电子病历标准实体,所述映射过程包括机器处理和人工标注。2.如权利要求1所述的电子病历命名实体标准化方法,其特征在于,所述S1中预处理包括将所述待识别的电子病历语料进行脱敏处理和人工序列标注。3.如权利要求1所述的电子病历命名实体标准化方法,其特征在于,所述S2中的排列语言模型包括:其中,表示所有排列组合的期望,p
θ
是条件概率,是分解顺序中的第t个token,x
α
<t是第t个token之前的所有tokens,即重排列语言建模的目标函数,以t
‑
1个tokens为上下文,预测第t个tokens;所述双流注意力机制包括询问表征单元和内容表征单元:所述双流注意力机制包括询问表征单元和内容表征单元:其中,为额外输入的预测目标词的位置信息,表示文本序列中各个位置之间的相关性;所述Transformer
‑
XL核心组件包括:其中,Q、K、V均是输入字向量矩阵,dim为输入向量维度。4.如权利要求3所述的电子病历命名实体标准化方法,其特征在于,所述S4中Neo4j数据库的构建过程包括:对训练语料的数据,以及预先获取的卫健委标准数据集进行分类标注处理,形成三元
组数据存入到所述Neo4j数据库。5.如权利要求3所述的电子病历命名实体标准化方法,其特征在于,所述S5中BiGRU
‑
CRF子模型包括:z
t
=σ(w
z
·
[h
t
‑1,x
t
])r
t
=σ(w
r
·
[h
t
‑1,x
t
])])其中,x
t
表示当前t时刻的输入向量,在所述待识别的电子病历语料中表示第t个单词的特征向量;h
t
、h
t
‑1分别表示当前t时刻和前一时刻的隐藏层状态矩阵向量;表示当前t时刻的候选隐藏层状态,也是当前时刻新的记忆;z
t
表示...
【专利技术属性】
技术研发人员:杨雨,张培龙,李华,王显荣,刘玉林,
申请(专利权)人:内蒙古大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。