【技术实现步骤摘要】
一种在线生态观测数据异常检测方法及系统
[0001]本专利技术涉及一种数据异常检测方法及系统,尤其涉及一种在线生态观测数据异常检测方法及系统。
技术介绍
[0002]国家生态数据中心所接收的生态观测数据,存在观测指标多、数据上报站台多的特点,因此不同生态观测指标都需要进行数据质量控制,以保障汇聚到数据中心的数据是可用的。数据异常检测(Outlier detectiom)是质量数据控制的重要内容,定义是从正常的时间序列中识别不正常的数据。
[0003]时间序列数据异常检测是一个经典问题,其方法很多,有基于统计(如3σ法则),基于预测(如ARIMA、指数平滑),基于机器学习方法(如LOF、孤立森林、One
‑
class SVM等),基于深度学习的检测方法(如自编码器、GAN、变分自编码器)。按照算法运行时效性要求,可分为在线数据异常检测和离线数据异检测,其中,在线数据异常检测对算法的适应能力提出了更高的要求。
[0004]生态观测数据中,有些观测指标,如土壤水分、地表水质、大气污染物浓度等,受环 ...
【技术保护点】
【技术特征摘要】
1.一种在线生态观测数据异常检测方法,其特征在于:检测方法包括如下检测流程:从历史生态观测数据进行数据漂移检测方法学习,建立数据漂移检测需要的历史数据异常检测模型,并建立历史生态观测数据的漂移分段列表;生态观测数据异常的在线检测:检测在线数据的漂移分段,以历史数据异常检测模型为基础,微调获取当前漂移分段的在线异常检测模型,由在线异常检测模型在线进行异常检测;当前漂移分段训练数据不足时,从历史生态观测数据的漂移分段列表匹配相似数据增强微调数据训练量。2.根据权利要求1所述的在线生态观测数据异常检测方法,其特征在于:进行历史数据异常检测模型的学习,以获取历史异常标记序列,具体过程为:a)运用历史生态观测数据的时间序列H对LSTM
‑
AE模型进行训练,获取检测需要的历史数据异常检测模型再通过模型对历史生态观测数据进行重建,获取原始序列与重建序列之间的差值序列R{r1,r2,
…
r
n
};b)计算差值序列R的标准差,将3倍标准差作为异常检测阈值σ;c)差值序列R中不超过阈值σ的观测值为正常观测,标记为0,超过阈值σ的观测值为异常观测,标记为1,这样差值序列R转化为异常标记序列U{u1,u
2,
…
u
i
…
u
n
},其中u
i
∈{0,1}。3.根据权利要求2所述的在线生态观测数据异常检测方法,其特征在于:历史生态观测数据漂移分段列表检测过程为:运用获取的异常检测标记序列U,以DDM算法为基础,检测历史生态观测数据序列中的数据漂移,对原始序列数据进行数据漂移分段,将时间序列H转化为数据分段序列Hs{{H
s1
},{H
s2
},{H
si
},
…
,{H
sm
},其中,{H
si
}为原始序列数据时间连续片段{h
j
,h
j+1
,
…
h
j+k
},设置漂移起始位置D
start
为0,进行漂移检测;对数据分段序列Hs{{H
s1
},{H
s2
},{H
si
},
…
,{H
sm
}的每个分段计算其特征向量,以特征向量为索引,建立历史数据漂移分段列表。4.根据权利要求3所述的在线生态观测数据异常检测方法,其特征在于:漂移检测具体过程如下:a)根据获取的历史异常标记序列U,依次取索引i位置异常值u
i
,根据DDM算法,计算变量p
i
和s
i
;p
i
计算方法如下:
ⅰ
.初始化m=0;
ⅱ
.依次计算
ⅲ
.p
i
=m;s
i
计算方法如下:b)如果p
i
和s
i
满足公式1,则认为索引i位置发生了数据漂移,记D
end
为i
‑
1,从时间序列H按照索引区间(D
start
,D
end
)取数据构成分段序列加入到分
段序列Hs,并设置D
start
为i,重复上述步骤a)和b),直到时间序列H所有数据完成检测;p
i
+s
i
≥p
min
+3*s
min
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,p
min
,s
min
分别为区间(j,i)之间p
i
和s
i
的最小...
【专利技术属性】
技术研发人员:谢传节,贺伟,
申请(专利权)人:中国科学院地理科学与资源研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。