当前位置: 首页 > 专利查询>重庆大学专利>正文

一种粗细粒度结合的层次化ICD编码方法和系统技术方案

技术编号:37208047 阅读:22 留言:0更新日期:2023-04-20 22:59
本发明专利技术公开一种粗细粒度结合的层次化ICD编码方法和系统,包括以下步骤:S1:输入电子病历文本和对应的疾病标准名称;S2:获取电子病历文本中的医生诊断,再对电子病历文本、医生诊断和疾病标准名称进行预处理;S3:粗粒度筛选:对预处理的医生诊断进行第一词向量构建,并将第一词向量进行第一编码和第一解码,得到ICD编码的前三位,获取对应的ICD编码和疾病标准名称,作为候选项;S4:细粒度筛选:将经过预处理的电子病历文本和S3中候选项中疾病标准名称转换为第二词向量序列并进行第二编码,再对第二编码结果进行相似度评分;S5:将相似度评分最高的ICD编码作为输出结果。评分最高的ICD编码作为输出结果。评分最高的ICD编码作为输出结果。

【技术实现步骤摘要】
一种粗细粒度结合的层次化ICD编码方法和系统


[0001]本专利技术涉及ICD编码
,特别涉及一种粗细粒度结合的层次化ICD编码方法和系统。

技术介绍

[0002]国际疾病分类(ICD)是一套编码系统,它根据疾病的某些特征对疾病进行分类,并用编码方法表示。把疾病进行编码,可以方便的表示患者就诊期间的诊断和流程。该编码可用于临床研究和医疗保健,如流行病学研究和服务账单。
[0003]人工进行ICD编码时,要求编码人员阅读繁杂冗长的电子病历并进行标注,导致有很多错误标记。因此,越来越多的研究开始关注使用机器学习的方法进行自动ICD编码。自动ICD编码之所以困难,有两个原因:电子病历文本长度很长,其中有大量无用的噪声信息,因此很难提取特征。例如,在MIMIC III数据集中,平均文本超过1500个单词,而这些单词中绝大部分信息是无用的;ICD代码数量繁多,并且存在严重的长尾问题,大量常见病占据了医学文本,而绝大多数罕见病很少出现在数据集中。
[0004]现有的技术方案根据输入语料的不同可以大致分为两种:(1):将ICD编码看作多标签分类问题,把电子病历文本作为输入语料,使用传统机器学习方法或深度学习方法,训练N个二分类器得到结果。这其中就包括传统的机器学习方法(如SVM、LR等方法),以及深度学习方法,例如RNN和CNN。基于CNN的深度学习模型使用单个或者多个固定大小的卷积滤波器来捕获电子病历文本中与ICD代码相关的文本片段,但是存在难以选择最佳窗口等问题。另一类深度学习模型基于RNN来处理电子病历文本的依赖,但是由于信息传输能力有限和梯度消失等问题导致对于长文档来说,RNN的表达能力有限。而由于电子病历中的疾病存在严重的长尾分布,导致罕见疾病的分类器因为训练样本不够而导致泛化能力不强。(2):使用医生诊断作为输入语料,将ICD编码问题视作多分类问题或序列生成问题,使用传统的机器学习或者深度学习方法构造多分类器或编码解码器。一些工作使用传统机器学习的分类器,K临近算法,贝叶斯独立分类器构建N分类器。但是由于长尾分布,导致罕见病的准确率不高。一些工作认为该任务是一个序列生成问题,即从医生诊断生成ICD代码,使用Seq2Seq模型,使用Bi

GRU作为编码器和解码器,结合Attention机制进行ICD代码生成。序列生成在粗粒度生成时表现优秀,但是随着粒度进一步细分会导致更多的错误,而且医生诊断文本中的信息不如电子病历文本完整,在医生诊断中使用缩写词和同义词等情况下,也会对使用单一医生诊断的模型产生影响。

技术实现思路

[0005]针对现有技术中ICD编码的层次化信息利用不足以及细粒度ICD编码时容易出现错分导致ICD编码精度较低的问题,本专利技术提出一种粗细粒度结合的层次化ICD编码方法和系统,通过使用电子病历文本和医生诊断两种语料进行层次化ICD编码,提高ICD编码精度。
[0006]为了实现上述目的,本专利技术提供以下技术方案:
[0007]1一种粗细粒度结合的层次化ICD编码方法,包括以下步骤:
[0008]S1:输入电子病历文本和对应的疾病标准名称;
[0009]S2:获取电子病历文本中的医生诊断,再对电子病历文本、医生诊断和疾病标准名称进行预处理;
[0010]S3:粗粒度筛选:对预处理的医生诊断进行第一词向量构建,并将第一词向量进行第一编码和第一解码,得到ICD编码的前三位,获取对应的ICD编码和疾病标准名称,作为候选项;
[0011]S4:细粒度筛选:将经过预处理的电子病历文本和S3输出候选项中疾病标准名称转换为对应的第二词向量序列并进行第二编码,再对第二编码结果进行相似度评分;
[0012]S5:将相似度评分最高的ICD编码作为输出结果。
[0013]优选地,所述S2中,预处理步骤为:使用jieba分词脚本对电子病历文本、医生诊断和疾病标准名称进行分词、去除停用词和去除无用噪声。
[0014]优选地,所述S3包括:
[0015]S3

1:构建第一词向量,将经过预处理的医生诊断转化为词向量序列E=e
d1
,e
d2
,

,e
dn
],e
dn
表示医生诊断文本d的第n个第一词向量;
[0016]S3

2:将词向量序列E输入第一编码器进行编码,得到特征向量;
[0017]S3

3:将编码器输出的特征向量输入第一解码器进行解码,输出ICD编码的前三位;
[0018]S3

4:获取ICD编码的前三位之后,把对应的所有ICD编码和对应的疾病标准名称抽取出来作为候选项。
[0019]优选地,所述S3

2中,第一编码器由6个相同的编码层构成,每一个编码层包括两个子层:自注意力层和位置感知前馈网络层。
[0020]优选地,所述S3

3中,第一解码器包括自注意力层和位置感知前馈网络层和第三子层,第三子层对第一编码器的输出执行多头关注,输出ICD编码的前三位。
[0021]优选地,使用交叉熵损失函数来更新解码器,更新方式如下:
[0022][0023]公式(1)中,LOSS表示交叉熵损失函数;T表示解码的步数总量;表示正确预测对应的词的概率。
[0024]优选地,所述S4包括:
[0025]S4

1:构建第二词向量,将经过预处理的电子病历文本和S3中候选项中疾病标准名称步骤转换为对应的第二词向量序列和和和表示第m个电子病历第二词向量,w表示电子病历;表示第n个疾病标准名称第二词向量,icd表示疾病标准名称;
[0026]S4

2:对第二词向量序列e使用第二编码器进行编码,输出编码结果;
[0027]S4

3:使用多跳注意力机制网络从编码结果中获取电子病历文本和疾病标准名称的特征向量;
[0028]S4

4:对电子病历文本和疾病标准名称的特征向量进行相似度评分。
[0029]优选地,所述S4

2中,第二编码器的编码过程为:
[0030][0031][0032][0033][0034][0035][0036]公式(2)中,是电子病历文本前向传播LSTM的输出;表示LSTM前向传播;表示电子病历文本对应的词向量序列;表示是电子病历文本后向传播的LSTM输出;表示LSTM后向传播;表示疾病标准名称前向传播LSTM的输出;表示疾病标准名称后向传播LSTM的输出;表示电子病历文本第i步的编码结果;

表示向量的加操作;表示疾病标准名称第i步的编码结果。
[0037]优选地,所述S4

3中,相似度评分的计算公式为:
[0038][0039][0040]公式(3)中,sim(r,icd本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种粗细粒度结合的层次化ICD编码方法,其特征在于,包括以下步骤:S1:输入电子病历文本和对应的疾病标准名称;S2:获取电子病历文本中的医生诊断,再对电子病历文本、医生诊断和疾病标准名称进行预处理;S3:粗粒度筛选:对预处理的医生诊断进行第一词向量构建,并将第一词向量进行第一编码和第一解码,得到ICD编码的前三位,获取对应的ICD编码和疾病标准名称,作为候选项;S4:细粒度筛选:将经过预处理的电子病历文本和S3输出候选项中疾病标准名称转换为对应的第二词向量序列并进行第二编码,再对第二编码结果进行相似度评分;S5:将相似度评分最高的ICD编码作为输出结果。2.如权利要求1所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,所述S2中,预处理步骤为:使用jieba分词脚本对电子病历文本、医生诊断和疾病标准名称进行分词、去除停用词和去除无用噪声。3.如权利要求1所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,所述S3包括:S3

1:构建第一词向量,将经过预处理的医生诊断转化为词向量序列E=e
d1
,e
d2
,

,e
dn
,e
dn
表示医生诊断文本d的第n个第一词向量;S3

2:将词向量序列E输入第一编码器进行编码,得到特征向量;S3

3:将编码器输出的特征向量输入第一解码器进行解码,输出ICD编码的前三位;S3

4:获取ICD编码的前三位之后,把对应的所有ICD编码和对应的疾病标准名称抽取出来作为候选项。4.如权利要求3所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,所述S3

2中,第一编码器由6个相同的编码层构成,每一个编码层包括两个子层:自注意力层和位置感知前馈网络层。5.如权利要求3所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,所述S3

3中,第一解码器包括自注意力层和位置感知前馈网络层和第三子层,第三子层对第一编码器的输出执行多头关注,输出ICD编码的前三位。6.如权利要求5所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,使用交叉熵损失函数来更新解码器,更新方式如下:公式(1)中,LOSS表示交叉熵损失函数;T表示解码的步数总量;表示正确预测对应的词的概率。7.如权利要求1所述的一种粗细粒度结合的层次化ICD编码方法,其特征在于,所述S4包括:S4

1:构建第二词向量,将经过预处理的电子病历文本和S3中候选项中疾病标准名称步骤转换为对应的第二词向量序列和和
表示第m个电子病历第二词向量,w表示电子病历;表示第n个疾病标准名称第二词向量,...

【专利技术属性】
技术研发人员:古平王江兴阳松李强张程
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1