医疗时序数据缺失值处理方法技术

技术编号：30903351 阅读：18 留言：0更新日期：2021-11-22 23:48

本发明专利技术属于医疗数据处理技术领域，尤其医疗时序数据缺失值处理方法，包括以下步骤：通过各种临床数据模式来填补缺失值，包括以下步骤：数据输入，在输入层输入含有缺失值的多变量原始时序数据、插值开关矩阵和输入数据时间戳矩阵，同时添加补充输入；本发明专利技术本发明专利技术插值不需要任何前提假设，本发明专利技术可以极大的提高插值的准确性，通过处理数据得到高准确性的插值数据来进行死亡率预测，预测性能更好，本发明专利技术对不规则时序数据、含噪声较大的数据、突发性较强的数据均有很好的插值性能，适用于ICU临床多变量时序数据的缺失问题。床多变量时序数据的缺失问题。床多变量时序数据的缺失问题。

全部详细技术资料下载

【技术实现步骤摘要】
医疗时序数据缺失值处理方法

[0001]本专利技术涉及医疗数据处理
，尤其涉及医疗时序数据缺失值处理方法。

技术介绍

[0002]在医疗数据挖掘过程中，多变量医疗时序数据是很常见的一类数据。由于各种原因，这些数据中包含大量的缺失值。缺失值的存在，在很大程度上降低了下游应用的性能，医疗时序数据中的缺失值是指在当前观测中未收集到任何数据从而导致该时刻数据集中的值为空。从前期研究结果表明，缺失值的存在会严重影响从这些数据中得出结论的可靠性。在临床中，导致数据缺失的原因主要有四个：设备故障、临床医护人员忘记记录、某些数据不需要收集(例如，医护人员认为某些数据对该病人意义不大，故放弃收集)、某些数据只在特定状态下进行收集(例如，体温数据在病人发烧时一直在收集，但是当病人体温恢复正常后停止收集)。
[0003]对医疗数据缺失值进行处理的方法有多种，最直接也是最简单的方法就是将这些缺失数据忽略。但是忽略数据会改变原始的数据结构，从而破坏原有数据的整体性。为了保持数据的结构完整，一种常规处理方法是使用样本的均值来带代替那些缺失值。然而，用均值填充方法适合样本比较平滑的数据，该方法在不同应用领域的填补质量差别很大。这种方法对ICU数据并不适用，因为ICU数据往往具有较强的突发性。另一类方法就是对缺失值进行插补，例如k临近(KNN)、矩阵分解或通过链式方程进行多源插补。但是大多数的插补方法均需要较强的前提假设，如假设数值是随机缺失的。这就导致当假设不满足时，插补方法无法正确高效的工作，故这些插补方法的通用性不佳。在前面的疾...

【技术保护点】

【技术特征摘要】
1.医疗时序数据缺失值处理方法，其特征在于，包括以下步骤：S1、通过各种临床数据模式来填补缺失值，包括以下步骤：S11、数据输入，在输入层输入含有缺失值的多变量原始时序数据X
p
、插值开关矩阵SW和输入数据时间戳矩阵S
p
，同时添加了M
p
、Δ
p
、B
P
、CMR
P
作为补充输入，S12、插补值初始化，不同医疗操作采用不同的插补策略，相同的医疗操作不同的特征应该有不同的插补策略，对于同一个特征其插值策略应该随时间变化而变化；S13、高精度插补，包括循环层、回归层和评估层，通过RNN实现循环层，通过一层全连接网络实现回归层，通过预先定义的规则实现评估层；S14、插补值约束，通过二项分布、正态分布和泊松分布进行约束，并通过最大值、最小值来进一步约束，得出插补结果；S2、将填补后的数据用于死亡率预测，具体损失函数定义如下：其中，其中N
k
是类别k中训练集中样本数量，N是训练集的样本大小，和分别是类k的真实值和预测值。2.根据权利要求1所述的医疗时序数据缺失值处理方法，其特征在于，所述补充输入的算法为：
3.根据权利要求1所述的医疗时序数据缺失值处理方法，其特征在于，所述S14中，约束算法为：4.根据权利要求1所述的医疗时序数据缺失值处理方法，其特征在于，所述S12中，插补值初始化方法定义如下：5.根据权利要求4所述的医疗时序数据缺失值处理方法，其特征在于，插补值初始化后进入插补网络，通过迭代的方法在序列中根据窗口j的邻居信息和历史信息对缺失值进行插补，其损失函数表示为RNN机制将更新为更新为
其中是通过循环神经网络插补出来的值。6.根据权利要求1所述的医疗时序数据缺失值处理方法，其特征在于，所述S13中，RNN部分使用双向插补策略和不同插补模式的RGRU
‑
D来实现，添加了3个补充模式到GRU
‑
...

【专利技术属性】
技术研发人员：史振坤，郝雨微，张一嘉，左祥麟，左万利，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人