一种基于动力学原理与时间差分的数据补全方法技术

技术编号:32858019 阅读:20 留言:0更新日期:2022-03-30 19:32
一种基于动力学原理与时间差分的数据补全方法,该方法包含多元时间序列数据的潜在维度分析、补全模型、迭代优化算法部分。运行时,潜在维度分析部分使用奇异值分解估算数据的主成分数量,确定潜在变量的维度;补全模型从动力学系统的基本微分方程而来,基于“数据可用低维表示”与“稀疏噪声”假设,利用时间差分正则化来补全数据;优化求解算法通过求解梯度以及近端算子等信息来迭代地对模型求解。本发明专利技术针对时间序列数据采样中常见的缺失问题,考虑潜在信息,提出一种有效的数据补全方法,具备补全效果好、运行快速简单、鲁棒性强、适用场合广等优点,适用于各种符合动力学原理的时间序列领域,解决不可避免的数据丢失与噪声问题。题。题。

【技术实现步骤摘要】
一种基于动力学原理与时间差分的数据补全方法


[0001]本专利技术属于控制科学与计算机应用领域,涉及到一种基于动力学原理与时间差分的数据补全方法,针对多元时间序列采样中常见的数据缺失与噪声问题,提出一种有效的补全方法。

技术介绍

[0002]多元时间序列是间隔采样而得到的多组数据,对多元时间序列分析及建模可用于分析系统内在变化规律,在气象、经济等诸多领域有广阔的应用前景。多元时间序列在采样过程中,受到传感器误差、人工误操作、固有噪声、意外故障等影响,可能使数据包含缺失值及噪声。为保证信息完整性及可处理性,需解决数据缺失的问题。现有的处理方法大体可分为:基于统计学原理与近邻数据的填补法、基于拟合函数的插值法、基于低秩矩阵分解的优化算法、基于神经网络的深度学习方法。其中基于矩阵分解的方法假设时间序列间具备高度的相关性,试图寻找多维序列相互之间的空间关联性,或采用基于图或时间相关的正则化方法保留时间依赖性,以TemporalRegularizedMatrixFactorization(TRMF)为代表;神经网络相关的方法以数据驱动为基础,包括利用自编码器表达数据深层特征(如VAE),利用生成对抗网络产生更理想的数据(如GAIN),或利用自回归模型学习采样点之间的联系(如RNN与GRU相关的方法)。
[0003]为了获得满足需求的创新型数据补全方案,数据补全方法需保持原有数据的纯净,并尽可能捕获数据间的关联性,同时降低算法的计算复杂度。随着数据维度的升高、数据量的增大以及对补全效果的需求,简单的填补与插值法无法满足需求。基于深度学习的方法计算复杂度较高,且分批训练对于数据整体特征的捕获与补全效果难以保证。相比之下,基于低秩矩阵分解的多元时间序列的补全方法计算复杂度较低。然而现有方法大多基于统计学的思路,针对所有数据都采用数据低秩与异常值稀疏的假设,未能考虑多元时间序列具有的内在变化特征和动力学规律。因此,建立一种简单有效、快速轻量,且能捕获多元时间序列特有的动力学特征的补全方法很有必要。

技术实现思路

[0004]为了提升补全效果、降低计算复杂度,本专利技术建立了一种基于动力学原理和时间差分的多元时间序列补全方法。针对当前基于矩阵分解方法对于多元时间序列特征利用不充分、传统插值与拟合法补全效果较差、深度神经网络方法训练速度较慢的问题,本专利技术从多元时间序列满足的动力学原理的角度出发,结合低秩矩阵分解的基本思路构建模型,充分利用了数据内部潜在特征的变化因素,并结合时间差分正则化,考虑了多元时间序列采样点之间的联系,实现噪声的有效滤除与补全效果的提升。
[0005]为了达到提高补全效果、降低计算复杂度的目的,本专利技术采用的技术方案为:
[0006]一种基于动力学原理与时间差分的数据补全方法,包括以下步骤:
[0007]步骤1,获取需要补全的多元时间序列,一般是实际采样得到的数据,如温度、污染
物的含量随时间的变化数据。然后将其转化为二维矩阵,用观测矩阵M表示,其行数n和列数s分别代表采样地点和采样时间个数,M中每行数据是一维时间序列。
[0008]步骤2,在构建模型之前,需对观测矩阵M进行预处理,将其中的无效元素、缺失值标记为0。为了区分观测矩阵M的缺失部分和非缺失部分,首先根据观测矩阵M生成对应的掩码矩阵W。掩码矩阵W的维度与观测矩阵M相同,如果观测矩阵M的第i行第j列的元素M
ij
没有缺失,则掩码矩阵W的第i行第j列的元素W
ij
设为1;若观测矩阵M第k行第l列的元素缺失,则掩码矩阵W第k行第l列的元素为0。为了避免数据尺度不同对补全效果的影响,还需对观测矩阵M的每一行,即相同采样地点的所有数据,进行归一化操作,如式(1)所示:
[0009][0010]将观测矩阵M每一行的最大值与最小值记录下来,以便用于补全结果的逆归一化。执行完归一化的观测矩阵仍用M来表示,之后操作中的矩阵M均是指归一化后的观测矩阵M。
[0011]步骤3,为了获取数据潜在特征维度d,对第二步归一化后的观测矩阵M进行SVD分解,得到U,Σ,V三个矩阵,如式(2)所示:
[0012]M=UΣV
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0013]其中,U和V分别为左右奇异矩阵,与后续操作无关。Σ为对角矩阵,对角线元素为观测矩阵M的奇异值σ1,σ2…
σ
m
,如式(3)所示:
[0014][0015]且奇异值从大到小排列,即σ1>σ2>σ3>...>σ
m
,奇异值大小即代表了信息的重要程度。奇异值个数m=min(n,s)。
[0016]潜在特征维度d的选取方法有以下两种参考:
[0017]1)对奇异值σ1,σ2,σ3,...,σ
m
进行累积求和,找到前k个奇异值σ1,σ2,...σ
k
,使前k个奇异值之和占所有m个总奇异值之和的一定比例以上(如90%),此时的k作为潜在特征维度d,如式(4)所示:
[0018][0019]2)找到前k个奇异值,使得从第k+1个奇异值起,奇异值数量级会有显著减小,例如σ
k+1
数值减小为σ
k
的1/10以下,此时的数字k作为潜在特征维度d,如式(5)所示:
[0020][0021]步骤4,在确定潜在特征维度d之后,即可确定补全模型各矩阵维度。模型中所用到的矩阵包括重构补全矩阵潜在特征矩阵特征映射矩阵噪声矩阵以及第二步中的观测矩阵M和掩码矩阵W。
[0022]构建补全模型包含以下2个子步骤:
[0023]步骤4.1为了保证重构补全矩阵Y不改变观测矩阵M已有的数据,同时滤除噪声,需要建立重构补全矩阵Y与观测矩阵M之间的关系。观测矩阵M存在噪声与缺失值,噪声仅在观测矩阵M的非缺失部分存在,而重构补全矩阵Y不含噪声,引入约束等式(6)来表达Y与M的关系:
[0024][0025]其中,表示Hadamard积,式(6)表示真实观测矩阵M与重构补全矩阵Y,他们的非缺失部分仅受稀疏噪声S的影响。采用低秩+稀疏分离的形式从观测矩阵M去除噪声S,以保留有效的重构补全矩阵Y。同时用矩阵的l1范数来衡量噪声矩阵S的稀疏程度,如式(7)所示:
[0026][0027]其中,S={S
ij
}表示噪声矩阵中的元素,l1范数定义为矩阵中所有元素的绝对值之和,对S矩阵的l1范数进行约束可使S具有稀疏的特性。
[0028]上述步骤4.1中,引入l1范数的约束,从而滤除噪声,而多数现有补全方法并不具备噪声滤除的效果。
[0029]步骤4.2利用低秩补全的思想,假设Y是潜在特征X的线性组合,因此采用指标式(8)来衡量数据的低秩特性:
[0030][0031]其中,F范数定义为矩阵所有元素绝对值的平方和,其值越小,代表Y与CX的差异越小。式(8)采用了低秩矩阵分解的思路,重构补全矩阵Y即为补全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动力学原理与时间差分的数据补全方法,其特征在于,所述的数据补全方法包括以下步骤:步骤1,将实际采样得到的数据作为需要补全的多元时间序列,将多元时间序列转化为二维矩阵,用观测矩阵M表示,其行数n和列数s分别代表采样地点和采样时间个数,M中每行数据是一维时间序列;步骤2,在构建模型之前,对观测矩阵M进行预处理,将其中的无效元素、缺失值标记为0;为了区分观测矩阵M的缺失部分和非缺失部分,首先根据观测矩阵M生成对应的掩码矩阵W;掩码矩阵W的维度与观测矩阵M相同:如果观测矩阵M的第i行第j列的元素M
ij
没有缺失,则掩码矩阵W的第i行第j列的元素W
ij
设为1;若观测矩阵M第k行第l列的元素缺失,则掩码矩阵W第k行第l列的元素为0;步骤3,为了获取数据潜在特征维度d,对第二步归一化后的观测矩阵M进行SVD分解,得到U,Σ,V三个矩阵,如式(2)所示:M=UΣV
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,U和V分别为左右奇异矩阵,与后续操作无关;Σ为对角矩阵,对角线元素为观测矩阵M的奇异值σ1,σ2…
σ
m
,如式(3)所示:且奇异值从大到小排列,即σ1>σ2>σ3>...>σ
m
,奇异值个数m=min(n,s);潜在特征维度d的选取方法有以下两种参考:1)对奇异值σ1,σ2,σ3,...,σ
m
进行累积求和,找到前k个奇异值σ1,σ2,...σ
k
,使前k个奇异值之和占所有m个总奇异值之和的90%以上,此时的k作为潜在特征维度d,如式(4)所示:2)找到前k个奇异值,使得从第k+1个奇异值起,奇异值数量级会有显著减小,如σ
k+1
数值减小为σ
k
的1/10以下,此时的数字k作为潜在特征维度d,如式(5)所示:步骤4,在确定潜在特征维度d之后,即可确定补全模型各矩阵维度;模型中所用到的矩阵包括重构补全矩阵潜在特征矩阵特征映射矩阵噪声矩阵以及第二步中的观测矩阵M和掩码矩阵W;构建补全模型包含以下2个子步骤:步骤4.1为了保证重构补全矩阵Y不改变观测矩阵M已有的数据,同时滤除噪声,需要建立重构补全矩阵Y与观测矩阵M之间的关系;观测矩阵M存在噪声与缺失值,噪声仅在观测矩阵M的非缺失部分存在,而重构补全矩阵Y不含噪声,引入约束等式(6)来表达Y与M的关系:
其中,表示Hadamard积,式(6)表示真实观测...

【专利技术属性】
技术研发人员:侯修全冯守渤马艺鸣韩敏
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1