一种基于深度学习的ICD手术与操作编码自动匹配方法组成比例

技术编号:23533783 阅读:41 留言:0更新日期:2020-03-20 08:01
一种基于深度学习的ICD手术与操作编码自动匹配方法,使用了模块化建模的方法,每个模块只完成相对简单的一项任务,大大减小了模型参数的搜寻空间,缩减了所需要的数据量。本方法采用了双向自回归语言模型对自然语言序列进行建模,使用每一条手术描述和每一条ICD编码结合,计算出他们之间的语义空间权重,并使用语义空间权重对手术描述进行重构,最后使用重构之后的手术描述进行ICD编码分类匹配以解决概念拆分的问题,在计算中也使用了ICD手术与操作编码固有的的层级结构进行双向自回归模型建模,融入了业务先验知识。解决了临床中遇到的问题,可以快速、准确地进行ICD编码匹配。

An automatic matching method of ICD operation and operation code based on deep learning

【技术实现步骤摘要】
一种基于深度学习的ICD手术与操作编码自动匹配方法
本专利技术涉及医疗
,具体涉及一种基于深度学习的ICD手术与操作编码自动匹配方法。
技术介绍
国际疾病分类手术与操作编码(ICD-9-CM-3)是医院病案信息汇总和统计的重要工具,在医院的医疗、研究、管理中起到重要作用。在实际的临床应用中,如何根据电子病历中医务人员录入的手术描述匹配到ICD手术与操作编码,是一件耗时费力的事情,需要大量的病历阅读工作和编码查阅工作。而且在实际的电子病历当中,医务人员录入的手术与操作描述可能会比较简短,也就是在简短的一段描述中含有若干个手术操作类别,所以如何将医务人员录入病历的手术描述进行概念拆分和匹配到标准ICD手术与操作编码是一件漫长而容易出错的事情。而一般的统计学习,机器学习和深度学习分类模型往往无法应对ICD编码这样的超大规模分类问题,因为分类空间过于庞大,使用标注数据直接进行训练往往会产生严重的过拟合或欠拟合,并且无法解决手术描述的概念拆分问题,例如“头面部裂伤清创缝合术”这个手术描述需要拆分为两个ICD手术与操作编码,分别是'86.2201皮肤伤口切除性清创术'和'86.5900x006皮肤缝合术',一般的分类模型无法找到合理的拆分方法,而且一般的算法需要大量的标注数据,在实际条件下受限于各方面条件获取大量标注数据往往是很困难的事情,而在临床应用中因为医疗工作容错率比较低,模型因为过拟合和欠拟合而产生的错误是无法接受的。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种快速、准确地进行ICD编码匹配的方法。本专利技术克服其技术问题所采用的技术方案是:一种基于深度学习的ICD手术与操作编码自动匹配方法,包括如下步骤:a)利用医学文本语料进行字向量的预训练,字向量矩阵为Δ,其中N为字典中字的个数,d为字向量的维度,为实数空间,Δ∈{δ1,δ2,...,δn},δi为单个字的字向量,i为单个字的字向量的编号,1≤i≤n,通过公式计算得到最大值的字向量矩阵其中P为概率,ci为自然语言序列中的一个字,为ci的上下文,T为矩阵转置,W为上下文取的窗口范围的字数,为在W范围内字向量的编号,1≤n≤N,n为正整数;b)获取医生在电子病历中录入的手术描述,通过索引步骤a)中最大值的字向量矩阵将电子病历中医生录入的手术描述中的每一个字用字向量hopt表示,其中len为电子病历中医生录入的手术描述的字数,为自然语言序列中的第j个字,j∈{1,2,...,len};c)将hopt进行双向自回归神经网络建模,正向建模顺序为从j=1到j=len,反向建模顺序是从j=len到j=1,建模完成后输出的正向隐状态序列为输出的反向隐状态序列为将正向隐状态序列和反向隐状态序列在d的维度上进行矩阵级联,矩阵级联后进行线性映射,获得为通过双休自回归神经网络建模后的电子病历中的手术描述,linear()为线性映射;d)获取国际疾病分类手术与操作编码中对于每一个标准手术编码的编码描述,通过索引步骤a)中最大值的字向量矩阵将国际疾病分类手术与操作编码的字向量表示为hcode;e)将hcode进行双向自回归神经网络建模,正向建模顺序为从j=1到j=len,反向建模顺序是从j=len到j=1,建模完成后输出的正向隐状态序列为输出的反向隐状态序列为将正向隐状态序列和反向隐状态序列在d的维度上进行矩阵级联,矩阵级联后进行线性映射,获得为通过双休自回归神经网络建模后的标准手术编码的编码描述,clen为编码描述的字数;f)将编码描述进行树形自回归神经网络建模得到g)通过公式计算中每个字对于的语义空间权重,为电子病历中手术描述中第i个字对应的隐状态,为某个ICD手术编码所对应的编码描述,1≤l≤len,l为正整数,通过公式计算使用语义空间权重αi对进行重构,得到重构后的重构后的为m,通过公式p=σ(Linear(m))对m进行线性映射,线性映射后用sigmoid概率映射函数激活,式中p为介于0到1之间的实数,Z为ICD手术与操作编码的个数;h)里通过公式Loss=-glogp-(1-g)log(1-p)计算模型的损失Loss,式中g为标记的正确结果,使用梯度下降法使损失最小化。进一步的,步骤c)中双向自回归神经网络建模的公式为:cj=multiply(τj,ρj)+multiply(μj,cj-1)、式中,γτ、βτ、bτ、γμ、βμ、bμ、γo、βo、bo、γρ、βρ、bρ为自回归神经网络的引入的参数,使用标准正态分布初始化引入的参数,σ为sigmoid概率映射函数,multiply为矩阵元素相乘运算。进一步的,步骤e)中双向自回归神经网络建模的公式为:cj=multiply(τj,ρj)+multiply(μj,cj-1)、式中,γτ、βτ、bτ、γμ、βμ、bμ、γo、βo、bo、γρ、βρ、bρ为自回归神经网络的引入的参数,使用标准正态分布初始化引入的参数,σ为sigmoid概率映射函数,multiply为矩阵元素相乘运算。进一步的,步骤f)中利用ICD-9-CM-3的树形结构进行树形自回归神经网络建模。本专利技术的有益效果是:使用了模块化建模的方法,每个模块只完成相对简单的一项任务,大大减小了模型参数的搜寻空间,缩减了所需要的数据量。本方法采用了双向自回归语言模型对自然语言序列进行建模,使用每一条手术描述和每一条ICD编码结合,计算出他们之间的语义空间权重,并使用语义空间权重对手术描述进行重构,最后使用重构之后的手术描述进行ICD编码分类匹配以解决概念拆分的问题,在计算中也使用了ICD手术与操作编码固有的的层级结构进行双向自回归模型建模,融入了业务先验知识。解决了临床中遇到的问题,可以快速、准确地进行ICD编码匹配。具体实施方式下面对本专利技术做进一步说明。一种基于深度学习的ICD手术与操作编码自动匹配方法,包括如下步骤:a)利用医学文本语料进行字向量的预训练,字向量矩阵为Δ,其中N为字典中字的个数,d为字向量的维度,为实数空间,Δ∈{δ1,δ2,...,δn},δi为单个字的字向量,i为单个字的字向量的编号,1≤i≤n,通过公式计算得到最大值的字向量矩阵argmax(f)表示指的是求可以使某个函数f取最大值所对应的f函数的参数的集合。其中P为概率,ci为自然语言序列中的一个字,为ci的上下文,T为矩阵转置,W为上下文取的窗口范围的字数,为在W范围内字向量的编号,1≤n≤N,n为正整数。b)获取医生在电子病历中录入的手术描述,在本专利技术中使用opt来表示。通过索引步骤a)中最大值的字向量矩阵将电子病历中医生录入的手术描述中的每一个字用字向量hopt表示,其中len为电子病历中医生录入的手术描述的字数,d为字向量的维度,为自然语言序列中的第j个字或称之为第j时刻,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的ICD手术与操作编码自动匹配方法,其特征在于,包括如下步骤:/na)利用医学文本语料进行字向量的预训练,字向量矩阵为Δ,

【技术特征摘要】
1.一种基于深度学习的ICD手术与操作编码自动匹配方法,其特征在于,包括如下步骤:
a)利用医学文本语料进行字向量的预训练,字向量矩阵为Δ,其中N为字典中字的个数,d为字向量的维度,为实数空间,Δ∈{δ1,δ2,...,δn},δi为单个字的字向量,i为单个字的字向量的编号,1≤i≤n,通过公式计算得到最大值的字向量矩阵其中P为概率,ci为自然语言序列中的一个字,为ci的上下文,T为矩阵转置,W为上下文取的窗口范围的字数,为在W范围内字向量的编号,1≤n≤N,n为正整数;
b)获取医生在电子病历中录入的手术描述,通过索引步骤a)中最大值的字向量矩阵将电子病历中医生录入的手术描述中的每一个字用字向量hopt表示,其中len为电子病历中医生录入的手术描述的字数,为自然语言序列中的第j个字,j∈{1,2,...,len};
c)将hopt进行双向自回归神经网络建模,正向建模顺序为从j=1到j=len,反向建模顺序是从j=len到j=1,建模完成后输出的正向隐状态序列为输出的反向隐状态序列为将正向隐状态序列和反向隐状态序列在d的维度上进行矩阵级联,矩阵级联后进行线性映射,获得为通过双休自回归神经网络建模后的电子病历中的手术描述,linear()为线性映射;
d)获取国际疾病分类手术与操作编码中对于每一个标准手术编码的编码描述,通过索引步骤a)中最大值的字向量矩阵将国际疾病分类手术与操作编码的字向量表示为hcode;
e)将hcode进行双向自回归神经网络建模,正向建模顺序为从j=1到j=len,反向建模顺序是从j=len到j=1,建模完成后输出的正向隐状态序列为输出的反向隐状态序列为将正向隐状态序列和反向隐状态序列在d的维度上进行矩阵级联,矩阵级联后进行线性映射,获得为通过双休自回归神经网络建模后的标准手术编码的编码描述,clen为编码描述的字数;
f)将编码描述进行树形自回归神经网络建模得到
g)通过公式计算中每个字对于的语义空间权重,为电子病历中手术描述中第i个字对应的隐状态,为某个ICD手术编码所对应的编码...

【专利技术属性】
技术研发人员:张述睿吴军樊昭磊张伯政张福鑫
申请(专利权)人:山东众阳健康科技集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1