当前位置: 首页 > 专利查询>中南大学专利>正文

一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质技术方案

技术编号:30405921 阅读:19 留言:0更新日期:2021-10-20 11:10
本发明专利技术公开了一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质,所述方法包括:步骤1:将患者的电子病历数据进行处理构成患者的就诊向量;步骤2:将每类数据的就诊向量作为原始输入数据,分别利用Bi_LSTM模型和CNN模型提取时序特征和非时序特征;步骤3:分别综合每类数据的时序特征和非时序特征得到综合特征;步骤4:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征。其中,利用得到最终特征可以用于疾病风险预测,本发明专利技术综合了不同类型医学数据各自的时序和非时序特征及其之间的相互关系,以获得更准确的患者表示特征,进而提高了疾病风险预测结果的可靠性。进而提高了疾病风险预测结果的可靠性。进而提高了疾病风险预测结果的可靠性。

【技术实现步骤摘要】
一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质


[0001]本专利技术属于医疗领域的数据处理技术,具体涉及一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质。

技术介绍

[0002]根据世界卫生组织的统计,全球每年有超过4100万的人死于像心血管疾病、糖尿病、呼吸系统疾病等慢性病。在这其中,心血管疾病是主要的致死疾病。这严重影响了人们的健康,并且给社会和经济带来了极其沉重的负担。因此,预测心血管疾病的发病对该病的早期预防和控制具有重要意义。
[0003]随着医院信息化水平的不断提高,医疗机构都积累了大量的电子病历(electronic health record,EHR)数据,其中包含了极其丰富的患者信息,包括诊断、化验、检查、用药、人口学信息和临床笔记等临床信息。基于电子病历数据,每个病人都可以表示为一个时间序列的医院就诊记录,每次就诊都包含一组异构的临床变量。由于EHR数据的全面性和易用性,它被广泛应用于医学预测的相关研究中,包括特定疾病的风险预测、未来的诊断、再入院预测、死亡率预测等。
[0004]对于EHR记录,异构性是其显著特征之一,如何有效地整合不同类型的电子病历数据以获得全面的患者表征是EHR预测建模的关键挑战。由于深度学习方法自身良好的自动特征学习能力,避免了传统特征工程对于大量人工的依赖,近年来已经得到了广泛的应用并取得了一定的成功。学者们提出了一系列基于深度神经网络的预测方法,试图通过深度学习方法强大的自动特征学习能力,从异类EHR数据中获取相关疾病发展模式,并且也取得了很好的效果。作为深度神经网络的典型代表,卷积神经网络(CNNs)和循环神经网络(RNNs)是最常用的模型。对于这两种神经网络,虽然CNN能有效地保留序列数据的邻域关系和局部特征,但由于其丢失了部分和整体之间的相关性,在时态数据挖掘中受到限制。而且现有的基于CNN的方法大多假设医院就诊过程中的医疗事件是严格按时间顺序记录的,而实际上通常不是这样。这进一步限制了这些方法的整体性能。
[0005]与CNN相比,RNN具有更好的时序建模能力,广泛应用于机器翻译、时间序列预测、语音识别、自然语言处理等领域。为了从序列数据中获取更丰富的上下文信息,使结果更易于理解,现有的方法通常在基于EHRs的时序学习模型中同时应用注意力机制,也取得了相当的成功。注意力机制不仅能有效地提升预测性能,同时也为模型提供了一定的可解释性。异构性是EHR数据的固有特性,患者的每次就诊记录通常包含各种类型的医疗事件信息。如何充分挖掘隐藏在不同类型的EHR序列数据中的独特时序模式,进而形成全面的患者表示,也是基于EHR数据的深度学习模型面临的挑战之一。近年来,一些学者也提出了一些改进的方法来整合多种类型的医学数据。比如将不同类型的原始数据作为一个整体来处理在这些方法中,或者为不同类型的数据建立独立的模块以最大程度地保留其自身的特征。这些方法虽然考虑了不同类型医学数据的差异,但异类数据之间的相互联系还没有得到充分的挖
掘。而且大多数方法都是通过简单地将不同类型数据的相关特征向量串联起来,从而构造最终的患者表示,无法真正实现多方面医学特征的有效融合。

技术实现思路

[0006]本专利技术考虑了不同类型医学数据之间的差异,提供一种全新的多类型数据融合表示学习模型,该模型综合了不同类型医学数据各自的时序和非时序特征及其之间的相互关系,以获得更准确的患者表示。
[0007]一方面,本专利技术提供的一种电子病历中异构数据特征融合方法,包括如下步骤:
[0008]步骤1:将患者的电子病历数据进行处理构成患者的就诊向量;
[0009]其中,将患者的电子病历数据按照数据类型划分序列并按照就诊时间排列,再依据预设的医疗事件唯一编码集合对每一类数据所在序列进行事件编码得到每一类数据对应的就诊向量;
[0010]步骤2:将每类数据的就诊向量作为原始输入数据,分别利用Bi_LSTM模型和CNN模型提取时序特征和非时序特征;
[0011]步骤3:分别综合每类数据的时序特征和非时序特征得到综合特征;
[0012]步骤4:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。
[0013]可选地,所述每类数据的就诊向量作为原始输入数据,输入所述Bi_LSTM模型之前,还包括对所述原始输入数据进行调整,调整后再输入所述Bi_LSTM模型;
[0014]其中,设定时间衰减因子捕获时间间隔和患者年龄的影响,并基于所述时间衰减因子调整输入数据,再输入所述Bi_LSTM模型;
[0015]所述时间衰减因子如下:
[0016][0017]式中,τ(Δt
i
,a
i
)为时间衰减因子,a
i
是就诊向量中第i次就诊R
i
发生时患者的年龄,Δt
i
表示就诊向量中第i次就诊R
i
和需要预测的就诊之间的时间间隔;λ是用于调整时间衰减强度的标量参数,e为自然底数;
[0018]基于所述时间衰减因子调整输入数据时,调整后的数据表示为:
[0019][0020]其中,r
i
为调整前第i次就诊R
i
对应的表示向量,调整后第i次就诊R
i
对应的表示向量,表示按元素相乘。
[0021]在一些实现方式中,r
i
直接为就诊向量中第i次就诊R
i
对应的数据构成的表示向量或者是根据实际需求对就诊向量中第i次就诊R
i
对应的数据进行其他数据处理后的表示向量;再另一些实施例中,考虑到初始就诊向量是高维离散的稀疏向量,为了获得更加有效的表示,利用一个全连接层将初始数据嵌入到低维度的连续空间内,形成嵌入向量语义表示,对应是结合时间衰减因子后的表示向量,具体请参照下文描述。
[0022]可选地,利用所述Bi_LSTM模型提取时序特征的过程如下:
[0023]A:将输入数据输入Bi_LSTM模型得到由前向和后向隐藏状态序列构成的隐藏状态
序列;
[0024]B:利用基于位置的注意力机制以及softmax函数计算权重分数,并进行加权求和得到融合表示;
[0025][0026][0027][0028]式中,是参数矩阵,表示实数集,是偏置参数,T

为矩阵的转置符号,n为参数维度,α
i
为第i次就诊对应的影响因子,h
i
为步骤A中得到的隐藏状态序列中第i次就诊对应的数据,为第i次就诊对应的权重,T表示患者的电子病历数据中的就诊总次数,c
t
为输入Bi_LSTM模型的一类数据对应的融合表示;
[0029]C:按照如下公式计算基于注意力的隐藏状态向量:
[0030][0031]为基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子病历中异构数据特征融合方法,其特征在于:包括如下步骤:步骤1:将患者的电子病历数据进行处理构成患者的就诊向量;其中,将患者的电子病历数据按照数据类型划分序列并按照就诊时间排列,再依据预设的医疗事件唯一编码集合对每一类数据所在序列进行事件编码得到每一类数据对应的就诊向量;步骤2:将每类数据的就诊向量作为原始输入数据,分别利用Bi_LSTM模型和CNN模型提取时序特征和非时序特征;步骤3:分别综合每类数据的时序特征和非时序特征得到综合特征;步骤4:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。2.根据权利要求1所述的方法,其特征在于:所述每类数据的就诊向量作为原始输入数据,输入所述Bi_LSTM模型之前,还包括对所述原始输入数据进行调整,调整后再输入所述Bi_LSTM模型;其中,设定时间衰减因子捕获时间间隔和患者年龄的影响,并基于所述时间衰减因子调整输入数据,再输入所述Bi_LSTM模型;所述时间衰减因子如下:式中,τ(Δt
i
,a
i
)为时间衰减因子,a
i
是就诊向量中第i次就诊R
i
发生时患者的年龄,Δt
i
表示就诊向量中第i次就诊R
i
和需要预测的就诊之间的时间间隔;λ是用于调整时间衰减强度的标量参数,e为自然底数;基于所述时间衰减因子调整输入数据时,调整后的数据表示为:其中,r
i
为调整前第i次就诊R
i
对应的表示向量,调整后第i次就诊R
i
对应的表示向量,示按元素相乘。3.根据权利要求1所述的方法,其特征在于:利用所述Bi_LSTM模型提取时序特征的过程如下:A:将输入数据输入Bi_LSTM模型得到由前向和后向隐藏状态序列构成的隐藏状态序列;B:利用基于位置的注意力机制以及softmax函数计算权重分数,并进行加权求和得到融合表示;融合表示;融合表示;式中,是参数矩阵,表示实数集,T'为矩阵的转置符号,n为参数维度,
是偏置参数,α
i
为第i次就诊对应的影响因子,h
i
为步骤A中得到的隐藏状态序列中第i次就诊对应的数据,为第i次就诊对应的权重,T表示患者的电子病历数据中的就诊总次数,c
t
为输入Bi_LSTM模型的一类数据对应的融合表示;C:按照如下公式计算基于注意力的隐藏状态向量:W
c
为参数矩阵,h
T
为Bi_LSTM的最后一个输出向量,tanh为双曲正切函数,为基于注意力计算的隐藏状态向量。4.根据权利要求1所述的方法,其特征在于:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征的过程如下:步骤41:将每一类数据的综合特征按照如下公式分别映射得到三个向量;征按照如下公式分别映射得到三个向量;征按照如下公式分别映射得到三个向量;式中,W
Q
,W
K
,是参数矩阵,表示实数...

【专利技术属性】
技术研发人员:安莹唐琨陈先来
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1