一种面向电子病历的智能辅助ICD自动编码方法及系统技术方案

技术编号:35432856 阅读:37 留言:0更新日期:2022-11-03 11:38
本发明专利技术涉及一种面向电子病历的智能辅助ICD自动编码方法及系统,使用语料对BERT模型进行预训练后,获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达,之后使用含有多个尺度的卷积模块捕获不同长度的文本模式,并通过残差网络扩大接受域;接着,使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语;最后,为临床记录分配ICD编码;本发明专利技术的方法和系统可分析医生所撰写电子病历中的疾病描述,自动给出患者的标准疾病诊断编码。诊断编码。诊断编码。

【技术实现步骤摘要】
一种面向电子病历的智能辅助ICD自动编码方法及系统


[0001]本专利技术属于电子病历自动编码
,具体涉及一种面向电子病历的智能辅助ICD 自动编码方法及系统。

技术介绍

[0002]国际疾病分类(International Classification of Diseases,ICD),是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。传统的病例编码方法是由医院专门的编码员负责,手工进行ICD的编码,但编码效率低,人力成本高,目前在医院中普遍实行了电子病历,对病例的存储和统计工作有了很大的帮助。但是,与手写病例相同,在医疗临床中,电子病历的文本信息也充斥着各种医学术语、表述晦涩和含糊,且每个电子病历通常需要会涉及到多个标签;而且,临床记录往往拥有非常长的字符序列,但是其中仅有少部分关键文本片段与某一特定的ICD编码相关,同时,ICD编码的标签空间非常庞大,在ICD
‑9‑
CM中有超过22000个编码,而在新版的IC本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向电子病历的智能辅助ICD自动编码方法,其特征在于,包括以下步骤:步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;步骤4,每个ICD编码对应一个ICD编码标签,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:首先将多尺度残差卷积神经网络的输出矩阵X
res
变换矩阵维度,使输出矩阵X
res
的第二维与标签向量的第二维一致,X
r
=tanh(X
res
W
att
)公式中,为改变维度后矩阵,为权重矩阵,然后为每个标签l生成注意力向量,并为每个编码生成注意力得分,得到注意力矩阵:生成注意力向量,并为每个编码生成注意力得分,得到注意力矩阵:公式中,为标签l的向量表示,softmax为归一化指数函数,为在标签l前提下文档表示矩阵中第i行的注意力得分,为文档表示矩阵,X
r
为标签l有关的行的加权平均值;步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系,GCN网络需要训练来更新每个标签的向量表示,选取GCN图卷积神经网络输出的最后一层所形成的矩阵的子集作为最终的标签矩阵;步骤6,根据步骤4得到的注意力矩阵和步骤5中的标签矩阵作为电子病历的分配类别,定义如下:公式中,为标签l的分类向量,为预测结果,表示是否将该标签分配给病人。2.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:还包括步骤7,通过最小化真实值y
l
与预测值的二元交叉熵损失函数来继续训练,使损失函数最小化:损失函数:
3.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:X=BERT0(z
n
)公式中,X表示电子病历的向量表示,v
i
表示ICD编码向量表示,z
n
表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT输出的整个向量序列,对于第i条编码描述,只取“[CLS]”索引对应的向量索引对应的向量表示所有ICD标签的向量表示,m表示ICD编码个数。4.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层:

多尺度卷积层多尺度卷积层包含多个并行的不同尺度的一维卷积单元;...

【专利技术属性】
技术研发人员:程铭李霏雍刘亮葛晓伟梁盼赵晓雷熊蜀峰牛承志骆鑫
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1