【技术实现步骤摘要】
一种长时间生态观测数据异常检测方法及系统
[0001]本专利技术涉及一种数据异常检测系统及方法,尤其涉及一种基于非因果长时间卷积网络的长时间生态观测数据异常检测方法及系统。
技术介绍
[0002]生态数据中心接收生态台站水、土、气等常规生态观测数据,其中大部分台站汇交到中心的数据在10年以上,对不同台站的不同生态观测指标长时间生态观测数据进行质量控制,是让这些科学数据更好的发挥价值的必要环节。在生态数据中心接收的生态观测数据中,如气象、通量、温湿盐等自动观测数据,观测年限长,观测频率较高(一般为半小时),这些时间序列数据量大,给数据异常处理带来了挑战,需要更有效的方法,充分挖掘长时间序列数据中蕴涵的规律,提高这类时间序列长、观测频率高、数据量大的观测数据的异常检测准确性。
[0003]时间序列数据异常检测是一个经典问题,目的是从正常的时间序列中识别不正常的数据。时间序列异常检测方法很多,有基于统计(如3σ法则)、基于预测(如ARIMA、指数平滑),机器学习方法(LOF、孤立森林、One
‑
class SVM等),基于深度学习的检测方法(自编码器、GAN、变分自编码器);但这些算法对时间序列长、数据量大的观测数据异常检测都存在一定的局限性。如ARIMA算法是基于自回归,虽然可以学习序列中的长周期变化规律,但由于算法结构局限性,对复杂变化的长时间生态观测数据异常检测准确性不高;深度学习方法虽然可以学习到复杂变化的时间序列数据规律,但受深度学习结构和计算机资源的局限,对观测频率高的序列,受训练样本 ...
【技术保护点】
【技术特征摘要】
1.一种长时间生态观测数据异常检测方法,其特征在于:包括以下步骤:S1、对观测数据进行时间序列分解,获取数据的年周期变化分量和趋势性变化分量;S2、基于非因果时间卷积网络和多层感知器构建数据重建神经网络NC
‑
TCN
‑
MLP;S3、对数据重建神经网络NC
‑
TCN
‑
MLP进行训练,获得训练后的最优模型M;S4、基于模型M,对长时间生态观测数据进行异常检测。2.根据权利要求1所述的长时间生态观测数据异常检测方法,其特征在于:在步骤S1中,选用Facebookprophet算法进行时间序列分解,在时间序列分解时,观测值数据序列Y的参数形式为y(t),t为时间,则算法分解后y(t)的数学形式为:y(t)=s
year
(t)+g(t)+∈
t
其中,s
year
(t)为年周期变化数据序列,g(t)为趋势性变化数据序列,∈
t
为误差项;获取分解后的s
yesr
(t),建立原始数据的年周期变化分量序列S{s1,s2,
…
s
n
};获取分解后的g(t)序列,建立原始数据的趋势性变化分量序列G{g1,g2,
…
g
n
}。3.根据权利要求1所述的长时间生态观测数据异常检测方法,其特征在于:在步骤S2中,数据重建神经网络的构建包括以下方面:2.1观测数据表达学习神经网络的构建,即NC
‑
TCN的构建:分别对每个输入分量构建同样结构的学习网络,即对观测值数据序列Y、年周期变化分量序列S、趋势性变化分量序列G构建多层非因果时间卷积网络学习其特征表达E
Y
、E
S
、E
G
;2.2数据表达向量的获取:拼接表达向量E
Y
、E
S
、E
G
,获得表达向量E,作为重建网络的输入;2.3特征向量的观测数据重构网络的构建:采用多层感知神经网络,表达向量E为输入,对原始数据进行重建;2.4损失函数的构建:以重建数据相对原始数据误差的均方差作为整个网络的代价函数。4.根据权利要求3所述的长时间生态观测数据异常检测方法,其特征在于:数据重建神经网络的构建的具体过程为:NC
‑
TCN由多层次残差网络块构成,每个残差网络块由两层非因果卷积层组成;通过非因果时间卷积网络,将每个1D的输入,转化为k维表达向量E
Y
、E
S
、E
G
,则原始观测数据分量E
Y
、年周期变化分量E
S
、趋势性变化分量E
G
分别表示为如下公式:原始观测数据分量:年周期变化分量:趋势性变化分量:拼接获得的表达向量E表...
【专利技术属性】
技术研发人员:谢传节,贺伟,
申请(专利权)人:中国科学院地理科学与资源研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。