一种基于深度学习的电子病历ICD自动编码方法技术

技术编号:24858828 阅读:105 留言:0更新日期:2020-07-10 19:10
本发明专利技术公开了一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:S1:将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;S2:学习电子病历的信息,得到文本向量;学习医疗编码的信息,得到医疗编码向量;S3:计算目标函数;S4:根据目标函数减低电子病历和医疗编码的差距,完成电子病历ICD自动编码。本发明专利技术的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。

【技术实现步骤摘要】
一种基于深度学习的电子病历ICD自动编码方法
本专利技术属于医疗数据处理
,具体涉及一种基于深度学习的电子病历ICD自动编码方法。
技术介绍
医疗领域中的病历是自由文本,由医生书写记录患者的病程,包括病人本人或他人对病情的主观描述,医务人员对病人的客观检查结果,以及医务人员对病情的分析结果。电子病历中包含的临床信息具有很高的实际应用价值,如病人的健康状况跟踪、疾病的流行性分析、医疗服务质量以及医疗决策支持等。但这些信息难以被直接利用,因为自由文本的记录和储存方式很难进行总结归类。医疗领域通用的办法是将文本映射到一个标准的医疗术语中。现在通用的编码系统是国际疾病分类系统,也就是ICD。ICD可对各种疾病做出国际通用的统一分类。医院中病案室的编码员为每一份病案进行ICD编码,编码范围主要集中在诊断、损伤、病理诊断和手术等。现在中国采取医生通过HIS系统选取编码,再由编码员校对之后进行病案编码。HIS系统模式上主要采取匹配的方法,编码完全依靠于医生给出的诊断,而不分析病历文本。这样的编码系统依然需要医生选取合适的编码,不够智能,这大大增加了医生的工作量。并且由于编码库的局限和诊断名称与医生书写习惯的偏差,往往导致编码错误和诊断填写不准确。因此,编码员的校对十分重要。如上所述,ICD编码任务的难点主要为:编码需要编码员阅读整篇病案,文本长且有许多缩写、误写等,增加了校对的难度;编码员需要运用编码规则和医学术语等大量的知识,理解医生在书写病历时的真正意图,这样的高素质人才的培养需要数十年的时间,十分匮乏;以及人工编码效率比较低且容易出现错误。基于医疗文本的积累速度越来越快,医院信息化系统的普及程度越来越高,ICD编码的难点与辅助编码系统尚不完善的现状,研究自动ICD编码已成医疗与信息行业关注的焦点。基于以上情况,本专利技术提出了一种基于深度学习的电子病历ICD自动编码方法。
技术实现思路
本专利技术的目的是为了解决电子病历使用不便的问题,提出了一种基于深度学习的电子病历ICD自动编码方法。本专利技术的技术方案是:一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。本专利技术的有益效果是:本专利技术的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容,使得不同的自然语言文本按照各自的特性被良好表征;同时使用跨文本注意力机制,提取文本中重要的语句,增加编码结果的可信度。本专利技术的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。进一步地,步骤S1包括以下子步骤:S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;S12:将每个词的向量表示垂直拼接,得到病历特征向量;S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。上述进一步方案的有益效果是:在本专利技术中,将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量,便于后续步骤使用。进一步地,步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。上述进一步方案的有益效果是:在本专利技术中,采用向量表示技术将文本序列向量化,便于后续步骤挖掘电子病历和医疗编码的文本内容。进一步地,步骤S2包括以下子步骤:S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;S22:将每个窗口的文本表示进行组合,得到文本向量;S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;S24:将每个医疗编码表示进行组合,得到医疗编码向量。上述进一步方案的有益效果是:在本专利技术中,采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息,采用门控神经单元学习医疗编码的语义信息。进一步地,步骤S21中,文本表示ci的卷积操作计算公式为:ci=s(w·xi:i+k-1+b)其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。上述进一步方案的有益效果是:在本专利技术中,步骤S21和步骤S22中,采用卷积操作处理电子病历的文本。进一步地,步骤S23包括以下子步骤:S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:z=σ(dtUz+ht-1Wz)r=σ(dtUr+ht-1Wr)其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,为Hadamard乘积,tanh(·)为双曲正切函数运算;S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:其中,z为更新门,sj为当前时刻的记忆内容本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:/nS1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;/nS2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;/nS3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;/nS4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。/n

【技术特征摘要】
1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。


2.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。


3.根据权利要求2所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
所述步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
所述步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
所述步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。


4.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。


5.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
所述步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。


6.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要...

【专利技术属性】
技术研发人员:滕飞陈婕马征黄路非陈俐
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1