【技术实现步骤摘要】
一种基于深度学习的电子病历ICD自动编码方法
本专利技术属于医疗数据处理
,具体涉及一种基于深度学习的电子病历ICD自动编码方法。
技术介绍
医疗领域中的病历是自由文本,由医生书写记录患者的病程,包括病人本人或他人对病情的主观描述,医务人员对病人的客观检查结果,以及医务人员对病情的分析结果。电子病历中包含的临床信息具有很高的实际应用价值,如病人的健康状况跟踪、疾病的流行性分析、医疗服务质量以及医疗决策支持等。但这些信息难以被直接利用,因为自由文本的记录和储存方式很难进行总结归类。医疗领域通用的办法是将文本映射到一个标准的医疗术语中。现在通用的编码系统是国际疾病分类系统,也就是ICD。ICD可对各种疾病做出国际通用的统一分类。医院中病案室的编码员为每一份病案进行ICD编码,编码范围主要集中在诊断、损伤、病理诊断和手术等。现在中国采取医生通过HIS系统选取编码,再由编码员校对之后进行病案编码。HIS系统模式上主要采取匹配的方法,编码完全依靠于医生给出的诊断,而不分析病历文本。这样的编码系统依然需要医生选取合适的编码,不够智能,这大大增加了医生的工作量。并且由于编码库的局限和诊断名称与医生书写习惯的偏差,往往导致编码错误和诊断填写不准确。因此,编码员的校对十分重要。如上所述,ICD编码任务的难点主要为:编码需要编码员阅读整篇病案,文本长且有许多缩写、误写等,增加了校对的难度;编码员需要运用编码规则和医学术语等大量的知识,理解医生在书写病历时的真正意图,这样的高素质人才的培养需要数十年的时间,十分匮乏;以及人工编码效率 ...
【技术保护点】
1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:/nS1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;/nS2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;/nS3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;/nS4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。/n
【技术特征摘要】
1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
2.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
3.根据权利要求2所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
所述步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
所述步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
所述步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
4.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
5.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
所述步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
6.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要...
【专利技术属性】
技术研发人员:滕飞,陈婕,马征,黄路非,陈俐,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。