当前位置: 首页 > 专利查询>吉林大学专利>正文

医疗时序数据缺失值处理方法技术

技术编号:30903351 阅读:18 留言:0更新日期:2021-11-22 23:48
本发明专利技术属于医疗数据处理技术领域,尤其医疗时序数据缺失值处理方法,包括以下步骤:通过各种临床数据模式来填补缺失值,包括以下步骤:数据输入,在输入层输入含有缺失值的多变量原始时序数据、插值开关矩阵和输入数据时间戳矩阵,同时添加补充输入;本发明专利技术本发明专利技术插值不需要任何前提假设,本发明专利技术可以极大的提高插值的准确性,通过处理数据得到高准确性的插值数据来进行死亡率预测,预测性能更好,本发明专利技术对不规则时序数据、含噪声较大的数据、突发性较强的数据均有很好的插值性能,适用于ICU临床多变量时序数据的缺失问题。床多变量时序数据的缺失问题。床多变量时序数据的缺失问题。

【技术实现步骤摘要】
医疗时序数据缺失值处理方法


[0001]本专利技术涉及医疗数据处理
,尤其涉及医疗时序数据缺失值处理方法。

技术介绍

[0002]在医疗数据挖掘过程中,多变量医疗时序数据是很常见的一类数据。由于各种原因,这些数据中包含大量的缺失值。缺失值的存在,在很大程度上降低了下游应用的性能,医疗时序数据中的缺失值是指在当前观测中未收集到任何数据从而导致该时刻数据集中的值为空。从前期研究结果表明,缺失值的存在会严重影响从这些数据中得出结论的可靠性。在临床中,导致数据缺失的原因主要有四个:设备故障、临床医护人员忘记记录、某些数据不需要收集(例如,医护人员认为某些数据对该病人意义不大,故放弃收集)、某些数据只在特定状态下进行收集(例如,体温数据在病人发烧时一直在收集,但是当病人体温恢复正常后停止收集)。
[0003]对医疗数据缺失值进行处理的方法有多种,最直接也是最简单的方法就是将这些缺失数据忽略。但是忽略数据会改变原始的数据结构,从而破坏原有数据的整体性。为了保持数据的结构完整,一种常规处理方法是使用样本的均值来带代替那些缺失值。然而,用均值填充方法适合样本比较平滑的数据,该方法在不同应用领域的填补质量差别很大。这种方法对ICU数据并不适用,因为ICU数据往往具有较强的突发性。另一类方法就是对缺失值进行插补,例如k临近(KNN)、矩阵分解或通过链式方程进行多源插补。但是大多数的插补方法均需要较强的前提假设,如假设数值是随机缺失的。这就导致当假设不满足时,插补方法无法正确高效的工作,故这些插补方法的通用性不佳。在前面的疾病诊断与死亡率预测的工作中,尝试采用这方法对缺失值进行处理,但处理的效果并不理想。
[0004]为解决上述问题,本申请中提出医疗时序数据缺失值处理方法。

技术实现思路

[0005](一)专利技术目的
[0006]为解决
技术介绍
中存在的技术问题,本专利技术提出医疗时序数据缺失值处理方法。
[0007](二)技术方案
[0008]为解决上述问题,本专利技术提供了医疗时序数据缺失值处理方法,包括以下步骤:
[0009]S1、通过各种临床数据模式来填补缺失值,包括以下步骤:
[0010]S11、数据输入,在输入层输入含有缺失值的多变量原始时序数据X
p
、插值开关矩阵SW和输入数据时间戳矩阵S
p
,同时添加了M
p
、Δ
p
、B
P
、CMR
P
作为补充输入,
[0011][0012]S12、插补值初始化,不同医疗操作采用不同的插补策略,相同的医疗操作不同的特征应该有不同的插补策略,对于同一个特征其插值策略应该随时间变化而变化;
[0013]S13、高精度插补,包括循环层、回归层和评估层,通过RNN实现循环层,通过一层全连接网络实现回归层,通过预先定义的规则实现评估层;
[0014]S14、插补值约束,通过二项分布、正态分布和泊松分布进行约束,并通过最大值、最小值来进一步约束,得出插补结果;
[0015]S2、将填补后的数据用于死亡率预测,具体损失函数定义如下:
[0016][0017]其中,其中N
k
是类别k中训练集中样本数量,N是训练集的样本大小,和分别是类k的真实值和预测值。
[0018]优选的,所述补充输入的算法为:
[0019][0020][0021]优选的,所述S14中,约束算法为:
[0022][0023]优选的,所述S12中,插补值初始化方法定义如下:
[0024][0025]优选的,插补值初始化后进入插补网络,通过迭代的方法在序列中根据窗口j的邻居信息和历史信息对缺失值进行插补,其损失函数表示为RNN机制将更新为
[0026][0027]其中是通过循环神经网络插补出来的值。
[0028]优选的,所述S13中,RNN部分使用双向插补策略和不同插补模式的RGRU

D来实现,添加了3个补充模式到GRU

D的隐藏状态,形成了RGRU

D,这三个补充模式分别为遮罩矩阵M、突发性参数矩阵B以及累计缺失率矩阵CMR,引入补充数据源,被定义为:
[0029][0030]其中可以根据以下公式计算得出:
[0031][0032]优选的,所述评估层应用了两种类型的评估来分别对应这两个类型的相关性,两种类型包括:
[0033]1)特征相关性评估FR,在第j个时间窗口内d
a
,d
b
,a≠b之间的评估;
[0034]2)历史相关的评估HR,考虑到特征本身的时间相关性,HR具体可以表达为对于第j
个和第k个时间窗口(j≠k),X
:,j
于X
:,k
之间的相关性。
[0035]优选的,通过FR估计q
j
,q
j
表示为:
[0036][0037]其中W
q
与b
q
是学习参数,该参数可以通过与回归层一起训练获得,将W
q
的对角线元素限制为0,q
j
中的第i个值就是X
i,j
基于其他值的约束特征。
[0038]优选的,所述HR将学习一个对应的双向的序列级别的估计X
+
和X

,在正向传播方向,并伴随有一系列的损失评估序列在反向传播方向,产生一个评估序列和另一个损失评估序列通过计算正向和反向的距离,使每个步骤中的预测保持连贯性,即
[0039][0040]优选的,HR最终的loos项是由l
+
,l

,l
di
三项累加而得出的,RGRU

D的优化目标是使得时间窗口的loss值最小其中l
j
的计算方法如下:
[0041][0042]本专利技术的上述技术方案具有如下有益的技术效果:
[0043]1、本专利技术插值不需要任何前提假设,考虑了四种医疗数据所特有的模式:缺失值遮罩、缺失值的时间间隔、医疗数据的突发性以及缺失数据的累积缺失率,然后利用带有衰减机制与临床数据模式的双向RNN来迭代更新插补值,最后通过添加额外的评估层与约束层来进一步处理,极大的提高插值的准确性;
[0044]2、本专利技术通过处理数据得到高准确性的插值数据来进行死亡率预测,预测性能更好,本专利技术对不规则时序数据、含噪声较大的数据、突发性较强的数据均有很好的插值性能,适用于ICU临床多变量时序数据的缺失问题。
附图说明
[0045]图1为本专利技术的缺失值插补框架示意图;
[0046]图2为本专利技术的双向RNN插补框架;
[0047]图3为GRU、GRU

D、RGRU

D对比示意图;
[0048]图4为死亡率预测结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.医疗时序数据缺失值处理方法,其特征在于,包括以下步骤:S1、通过各种临床数据模式来填补缺失值,包括以下步骤:S11、数据输入,在输入层输入含有缺失值的多变量原始时序数据X
p
、插值开关矩阵SW和输入数据时间戳矩阵S
p
,同时添加了M
p
、Δ
p
、B
P
、CMR
P
作为补充输入,S12、插补值初始化,不同医疗操作采用不同的插补策略,相同的医疗操作不同的特征应该有不同的插补策略,对于同一个特征其插值策略应该随时间变化而变化;S13、高精度插补,包括循环层、回归层和评估层,通过RNN实现循环层,通过一层全连接网络实现回归层,通过预先定义的规则实现评估层;S14、插补值约束,通过二项分布、正态分布和泊松分布进行约束,并通过最大值、最小值来进一步约束,得出插补结果;S2、将填补后的数据用于死亡率预测,具体损失函数定义如下:其中,其中N
k
是类别k中训练集中样本数量,N是训练集的样本大小,和分别是类k的真实值和预测值。2.根据权利要求1所述的医疗时序数据缺失值处理方法,其特征在于,所述补充输入的算法为:
3.根据权利要求1所述的医疗时序数据缺失值处理方法,其特征在于,所述S14中,约束算法为:4.根据权利要求1所述的医疗时序数据缺失值处理方法,其特征在于,所述S12中,插补值初始化方法定义如下:5.根据权利要求4所述的医疗时序数据缺失值处理方法,其特征在于,插补值初始化后进入插补网络,通过迭代的方法在序列中根据窗口j的邻居信息和历史信息对缺失值进行插补,其损失函数表示为RNN机制将更新为更新为
其中是通过循环神经网络插补出来的值。6.根据权利要求1所述的医疗时序数据缺失值处理方法,其特征在于,所述S13中,RNN部分使用双向插补策略和不同插补模式的RGRU

D来实现,添加了3个补充模式到GRU

...

【专利技术属性】
技术研发人员:史振坤郝雨微张一嘉左祥麟左万利
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1