一种健康数据缺失值预测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32645480 阅读:30 留言:0更新日期:2022-03-12 18:26
本发明专利技术适用于计算机技术领域,提供了一种健康数据缺失值预测方法、装置、计算机设备和存储介质,包括:获取待预测的健康数据,所述健康数据存在数据缺失值;根据所述待预测的健康数据以及预设的健康数据缺失值预测模型,确定数据缺失值;由于预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到,故利用该预设的健康数据缺失值预测模型进行数据缺失值的预测能够捕捉用户健康数据随时间变化的规律,从而准确且高效地预测和补全健康数据缺失值。值。值。

【技术实现步骤摘要】
一种健康数据缺失值预测方法、装置、计算机设备和存储介质


[0001]本专利技术属于计算机
,尤其涉及一种健康数据缺失值预测方法、装置、计算机设备和存储介质。

技术介绍

[0002]在大数据时代,医疗健康领域的研究话题成为热门话题之一。这是因为大量先进电子科学技术(例如可穿戴设备、血糖仪、心电图仪等)的使用促进了大量健康数据的产生。医疗健康数据能够帮助人们管理自己的健康状况,协助医生对患者做出准确的诊断,并且人们的健康数据在科学研究方面也具有巨大的潜力。因此,用户的健康数据在医疗健康领域的发展发挥着非常重要的作用。然而,在实际生活中,往往会由于系统更新、设备故障、归档不及时等原因产生缺失值,使用户的健康数据不完整。不完整的健康数据可能会导致医生做出不准确的诊断、制定不科学的治疗计划,并降低科学研究结果的有效性(如偏倚风险增加、样本表示不完整、信息丢失和统计能力下降等)。因此,健康数据缺失值问题是一个亟待解决的问题。
[0003]目前,针对缺失数据预测问题,国内外学者已经做出了一些工作,但是由于健康数据的复杂性,这些工作还存在局限性:(1)大多数研究工作没有考虑到健康数据随时间的变化而变化,这就造成预测准确度不高。(2)数据预测方法往往时间复杂度较高,因此大多数研究工作预测缺失值的计算成本较高。
[0004]由此可见,现有的健康数据缺失值预测方法存在计算成本高、准确率以及效率低的问题。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种健康数据缺失值预测方法,旨在解决现有的健康数据缺失值预测方法存在计算成本高、准确率以及效率低的问题。
[0006]本专利技术实施例是这样实现的,一种健康数据缺失值预测方法,包括:
[0007]获取待预测的健康数据,所述健康数据存在数据缺失值;
[0008]根据所述待预测的健康数据以及预设的健康数据缺失值预测模型,确定数据缺失值;所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。
[0009]本专利技术实施例的另一目的在于一种健康数据缺失值预测装置,包括:
[0010]健康数据获取单元,用于获取待预测的健康数据,所述健康数据存在数据缺失值;以及
[0011]数据缺失值确定单元,用于根据所述待预测的健康数据以及预设的健康数据缺失值预测模型,确定数据缺失值;所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。
[0012]本专利技术实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述健康数据缺失值预测方法的步骤。
[0013]本专利技术实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述健康数据缺失值预测方法的步骤。
[0014]本专利技术实施例提供的健康数据缺失值预测方法,由于预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到,故利用该预设的健康数据缺失值预测模型进行数据缺失值的预测能够捕捉用户健康数据随时间变化的规律,从而准确且高效地预测和补全健康数据缺失值;本专利技术一方面,在预测缺失值的过程中考虑到时间因素的影响,提高了模型预测精度;另一方面,通过将原始健康数据转化为数据压缩矩阵,不仅保持了原始健康数据的内在特征,还能够在模型训练过程中降低数据冗余和数据噪声的影响,同时将该健康数据缺失值预测模型扩展到矩阵形式,并将其应用到压缩矩阵中,大大提高了模型预测效率。
附图说明
[0015]图1为本专利技术实施例提供的MHDP
SVD_ARIMA
方法的动机图;
[0016]图2为本专利技术实施例提供的一种健康数据缺失值预测方法的流程图;
[0017]图3为本专利技术实施例提供的构建预设的健康数据缺失值预测模型的步骤流程图;
[0018]图4为本专利技术实施例提供的确定整合移动平均自回归模型的参数的步骤流程图;
[0019]图5为本专利技术实施例提供的健康数据缺失值的预测方法的收敛图;
[0020]图6为本专利技术实施例提供的平均绝对误差和均方根误差

数据稀疏度关系图;
[0021]图7为本专利技术实施例提供的平均绝对误差和均方根误差

时间序列长度关系图;
[0022]图8为本专利技术实施例提供的时间成本

数据稀疏度和时间序列长度关系图。
[0023]图9为本专利技术实施例提供的健康数据缺失值的预测装置的结构框图;
[0024]图10为本专利技术实施例提供的健康数据缺失值的预测装置中的模型训练单元的结构框图;
[0025]图11为本专利技术实施例提供的模型训练单元中的模型参数确定模块的结构框图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0027]为了更直观地介绍本专利技术提出的方法,以一个例子来描述动机。在图1中,假设有三个用户(分别是Alice,Bob,和Tom),每个用户都有一系列健康数据,用符号hd
ijt
来表示在t时刻用户i第j维的健康数据。在现实生活中,由于系统故障、操作失误(如工作人员归档不及时)等原因,医疗健康领域的数据往往会存在缺失值,如果用户在t时刻的健康数据丢失,丢失的数据用“?”表示。在图中,可以看出,Alice在t1时刻的健康数据存在缺失值。为了给
Alice预测和补全健康数据缺失值,要面对以下挑战:
[0028](1)时间因素对预测结果的影响。时间因素是一个动态上下文因素,它影响着用户健康数据的变化。当预测缺失值时将时间因素考虑在内,会得到更加准确的结果。
[0029](2)健康数据冗余和噪声问题以及传统ARIMA(autoregressive integrated moving average)模型单一时间序列预测的问题。例如,在Alice的健康数据中,她的出生年月信息就包含了她的年龄信息,因此,年龄信息是冗余的。噪声数据也是无意义的数据,而且会影响数据分析过程。同时,时间成本往往会很高。考虑时间因素会增加实验的时间成本,ARIMA模型作为一种常用的时间序列预测模型也是十分耗时的,ARIMA模型不能同时预测多条序列,增加了时间成本;
[0030]在这种情况下,本专利技术提出了基于SVD_ARIMA模型的时间感知的健康数据缺失值预测方法MHDP
SVD_ARIMA
,MHDP
SVD_ARIMA
方法将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种健康数据缺失值预测方法,其特征在于,包括:获取待预测的健康数据,所述健康数据存在数据缺失值;根据所述待预测的健康数据以及预设的健康数据缺失值预测模型,确定数据缺失值;所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。2.根据权利要求1所述的健康数据缺失值预测方法,其特征在于,所述预设的健康数据缺失值预测模型的构建步骤,包括:获取若干存在数据缺失值的健康数据样本;将所述健康数据样本划分为训练样本点数据以及测试样本点数据,所述测试样本点数据为最后一个时刻的健康数据;根据所述训练样本点数据,估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数;将所述训练样本点数据划分为多个时间序列数据;计算所述时间序列数据基于所述差分阶数下的差分,并对所述差分进行压缩处理,得到数据压缩矩阵;根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数,确定整合移动平均自回归模型的参数;根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及整合移动平均自回归模型的参数,构建健康数据缺失值预测模型;根据所述训练样本点数据以及所述健康数据缺失值预测模型,确定与所述训练样本点数据对应的下一时间序列数据;计算所述下一时间序列数据与所述测试样本点数据之间的损失差异;当判断所述损失差异满足预设误差条件时,则将当前的健康数据缺失值预测模型确定为预设的健康数据缺失值预测模型。3.根据权利要求2所述的健康数据缺失值预测方法,其特征在于,所述根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数,确定整合移动平均自回归模型的参数的步骤包括:根据所述数据压缩矩阵以及差分,确定正交因子矩阵;根据所述正交因子矩阵、数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及随机误差,基于预设的目标优化条件,构建目标函数;对所述目标函数进行迭代优化处理,确定整合移动平均自回归模型的参数。4.根据权利要求3所述的健康数据缺失值预测方法,其特征在于,所述对所述目标函数进行迭代优化处理,确定整合移动平均自回归模型的参数的步骤包括:利用增广拉格朗日方法最小化所述目标函数,得到左奇异向量和右奇异向量;使用尤尔

沃克方程得到整合移动平均自回归模型的参数。5.根据权利要求2所述的健康数据缺失值预测方法,其特征在于,利用网格搜索方法根据所述训练样本点数据,估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数的方法。6.一种健康数据缺失值预测装置,其特征在于,包括:
健康数据获取单元,用于获取待预测的健康数据...

【专利技术属性】
技术研发人员:齐连永孔令贞闫超董兆安黄万丽王斯锋
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1