一种长时间生态观测数据异常检测方法及系统技术方案

技术编号:39041595 阅读:17 留言:0更新日期:2023-10-10 11:54
本发明专利技术公开了一种长时间生态观测数据异常检测方法及系统,包括以下步骤:对观测数据进行时间序列分解,获取数据的年周期变化分量和趋势性变化分量;基于非因果时间卷积网络和多层感知器构建数据重建神经网络NC

【技术实现步骤摘要】
一种长时间生态观测数据异常检测方法及系统


[0001]本专利技术涉及一种数据异常检测系统及方法,尤其涉及一种基于非因果长时间卷积网络的长时间生态观测数据异常检测方法及系统。

技术介绍

[0002]生态数据中心接收生态台站水、土、气等常规生态观测数据,其中大部分台站汇交到中心的数据在10年以上,对不同台站的不同生态观测指标长时间生态观测数据进行质量控制,是让这些科学数据更好的发挥价值的必要环节。在生态数据中心接收的生态观测数据中,如气象、通量、温湿盐等自动观测数据,观测年限长,观测频率较高(一般为半小时),这些时间序列数据量大,给数据异常处理带来了挑战,需要更有效的方法,充分挖掘长时间序列数据中蕴涵的规律,提高这类时间序列长、观测频率高、数据量大的观测数据的异常检测准确性。
[0003]时间序列数据异常检测是一个经典问题,目的是从正常的时间序列中识别不正常的数据。时间序列异常检测方法很多,有基于统计(如3σ法则)、基于预测(如ARIMA、指数平滑),机器学习方法(LOF、孤立森林、One

class SVM等),基于深度学习的检测方法(自编码器、GAN、变分自编码器);但这些算法对时间序列长、数据量大的观测数据异常检测都存在一定的局限性。如ARIMA算法是基于自回归,虽然可以学习序列中的长周期变化规律,但由于算法结构局限性,对复杂变化的长时间生态观测数据异常检测准确性不高;深度学习方法虽然可以学习到复杂变化的时间序列数据规律,但受深度学习结构和计算机资源的局限,对观测频率高的序列,受训练样本时间步长限制,长周期变化规律很难以学习到,造成深度学习方法对长周期、高观测频率的生态观测数据异常检测准确性的下降。

技术实现思路

[0004]为了解决上述技术所存在的不足之处,本专利技术提供了一种基于非因果长时间卷积网络的长时间生态观测数据异常检测方法及系统。
[0005]为了解决以上技术问题,本专利技术采用的技术方案是:一种长时间生态观测数据异常检测方法,包括以下步骤:
[0006]S1、对观测数据进行时间序列分解,获取数据的年周期变化分量和趋势性变化分量;
[0007]S2、基于非因果时间卷积网络和多层感知器构建数据重建神经网络NC

TCN

MLP;
[0008]S3、对数据重建神经网络NC

TCN

MLP进行训练,获得训练后的最优模型M;
[0009]S4、基于模型M,对长时间生态观测数据进行异常检测。
[0010]进一步地,在步骤S1中,选用Facebook prophet算法进行时间序列分解,在时间序列分解时,观测值数据序列Y的参数形式为y(t),t为时间,则算法分解后y(t)的数学形式为:
[0011]y(t)=s
year
(t)+g(t)+∈
t
[0012]其中,s
year
(t)为年周期变化数据序列,g(t)为趋势性变化数据序列,∈
t
为误差项;
[0013]获取分解后的s
year
(t),建立原始数据的年周期变化分量序列S{s1,s2,

s
n
};
[0014]获取分解后的g(t)序列,建立原始数据的趋势性变化分量序列G{g1,g2,

g
n
}。
[0015]进一步地,在步骤S2中,数据重建神经网络的构建包括以下方面:
[0016]2.1观测数据表达学习神经网络的构建,即NC

TCN的构建:分别对每个输入分量构建同样结构的学习网络,即对观测值数据序列Y、年周期变化分量序列S、趋势性变化分量序列G构建多层非因果时间卷积网络学习其特征表达E
Y
、E
S
、E
G

[0017]2.2数据表达向量的获取:拼接表达向量E
Y
、E
S
、E
G
,获得表达向量E,作为重建网络的输入;
[0018]2.3特征向量的观测数据重构网络的构建:采用多层感知神经网络,表达向量E为输入,对原始数据进行重建;
[0019]2.4损失函数的构建:以重建数据相对原始数据误差的均方差作为整个网络的代价函数。
[0020]进一步地,数据重建神经网络的构建的具体过程为:
[0021]NC

TCN由多层次残差网络块构成,每个残差网络块由两层非因果卷积层组成;
[0022]通过非因果时间卷积网络,将每个1D的输入,转化为k维表达向量E
Y
、E
S
、E
G
,则原始观测数据分量E
Y
、年周期变化分量E
S
、趋势性变化分量E
G
分别表示为如下公式:
[0023]原始观测数据分量:
[0024]年周期变化分量:
[0025]趋势性变化分量:
[0026]拼接获得的表达向量E表示为:
[0027]以拼接获得的表达向量E作为多层感知神经网络输入,输出为1D重构的时间序列数据
[0028][0029]以观测值数据序列训练片段Y{y1,y2,

y
m
}和其对应的重构时间序列数据之间的平方误差的均值MSE作为代价函数:
[0030][0031]进一步地,在步骤S3中,模型训练过程为:
[0032]3.1生成训练样本:由于观测值数据序列Y、年周期变化分量序列S、趋势性变化分量序列G训练时需要按照时间对齐,将这3个序列合并为一个长度不变,维度为3的量H,按照窗口大小w和滑动步长p,转化样本集{H
T
},H
T
为长度w,维度3的数据序列;
[0033]3.2将{H
T
}按照比例划分为训练集和测试集然后按对应分量分别作为所设计网络的观测数据、年周期变化、趋势性变化三个分量的训练和测试数据输入;
[0034]3.3设置非因果时间卷积网络的卷积核长度、残差网络块数量,以及整个网络的样
本训练批处理batch大小、dropout、模型训练优化算法和学习率、最小训练迭代次数参数,进行网络训练,获得训练后的模型M。
[0035]进一步地,异常观测数据的判断方法为:按照原始观测数据与模型重建后数据之间的差值序列,计算差值序列标准差,标记超过该标准差三倍的观测数据为异常观测数据。
[0036]进一步地,长时间生态观测数据异常检测的具体过程为:
[0037]4.1运用模型M,获取观测值数据序列Y{y1,y2,

y
n
}对应的重构的时间序列数据计算对应的差值序列R{r1,r2,

r
n
};
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长时间生态观测数据异常检测方法,其特征在于:包括以下步骤:S1、对观测数据进行时间序列分解,获取数据的年周期变化分量和趋势性变化分量;S2、基于非因果时间卷积网络和多层感知器构建数据重建神经网络NC

TCN

MLP;S3、对数据重建神经网络NC

TCN

MLP进行训练,获得训练后的最优模型M;S4、基于模型M,对长时间生态观测数据进行异常检测。2.根据权利要求1所述的长时间生态观测数据异常检测方法,其特征在于:在步骤S1中,选用Facebookprophet算法进行时间序列分解,在时间序列分解时,观测值数据序列Y的参数形式为y(t),t为时间,则算法分解后y(t)的数学形式为:y(t)=s
year
(t)+g(t)+∈
t
其中,s
year
(t)为年周期变化数据序列,g(t)为趋势性变化数据序列,∈
t
为误差项;获取分解后的s
yesr
(t),建立原始数据的年周期变化分量序列S{s1,s2,

s
n
};获取分解后的g(t)序列,建立原始数据的趋势性变化分量序列G{g1,g2,

g
n
}。3.根据权利要求1所述的长时间生态观测数据异常检测方法,其特征在于:在步骤S2中,数据重建神经网络的构建包括以下方面:2.1观测数据表达学习神经网络的构建,即NC

TCN的构建:分别对每个输入分量构建同样结构的学习网络,即对观测值数据序列Y、年周期变化分量序列S、趋势性变化分量序列G构建多层非因果时间卷积网络学习其特征表达E
Y
、E
S
、E
G
;2.2数据表达向量的获取:拼接表达向量E
Y
、E
S
、E
G
,获得表达向量E,作为重建网络的输入;2.3特征向量的观测数据重构网络的构建:采用多层感知神经网络,表达向量E为输入,对原始数据进行重建;2.4损失函数的构建:以重建数据相对原始数据误差的均方差作为整个网络的代价函数。4.根据权利要求3所述的长时间生态观测数据异常检测方法,其特征在于:数据重建神经网络的构建的具体过程为:NC

TCN由多层次残差网络块构成,每个残差网络块由两层非因果卷积层组成;通过非因果时间卷积网络,将每个1D的输入,转化为k维表达向量E
Y
、E
S
、E
G
,则原始观测数据分量E
Y
、年周期变化分量E
S
、趋势性变化分量E
G
分别表示为如下公式:原始观测数据分量:年周期变化分量:趋势性变化分量:拼接获得的表达向量E表...

【专利技术属性】
技术研发人员:谢传节贺伟
申请(专利权)人:中国科学院地理科学与资源研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1