一种面向多数据流的异常状态检测方法技术

技术编号:18114824 阅读:25 留言:0更新日期:2018-06-03 08:09
本发明专利技术提供的一种面向多数据流的异常状态检测方法,可以实时高效的检测出各个数据流在各个时刻的状态变化。该方法包括以下步骤:1对多数据流数据参数进行收集;2对检测算法进行初始化;3在单数据流滑动窗口中查找当前时刻到达的数据对象的k邻域集合并计算其局部离群系数;4更新各个数据流当前数据对象的邻域对象的局部离群系数;5计算基于单数据流的离群信息对数据流当前时刻异常状态判断的参考价值;6计算基于数据快照的多数据流离群信息对数据流当前时刻异常状态判断的参考价值;7计算各数据流当前的离群系数;8判定当前时刻各数据流的异常状态;9更新数据流的滑动窗口数据集和数据快照集。

【技术实现步骤摘要】
一种面向多数据流的异常状态检测方法
本专利技术涉及一种面向多数据流的异常状态检测方法,属于计算机科学

技术介绍
随着社会信息化程度和数据采集自动化程度的不断提高,许多的应用领域出现了海量的、连续到达的、快速的数据流。数据流中的离群点所蕴含的挖掘价值受到了研究者和工业界广泛的关注。作为一种基础且重要的数据挖掘手段,基于数据流的离群检测已经成为一个研究热点,并取得了一系列的研究成果。目前数据流的离群检测广泛应用于网络安全、信用卡欺诈、工业损检等。传统的数据流离群检测技术主要是针对单数据流,而多数据流的离群检测技术还较少。随着各种自动化生产规模的不断扩大和传感器技术的不断发展,由大规模系统监测产生的多数据流异常监测的应用越来越广泛,如大规模机群系统的稳定性管理,大规模科学观察、网络日志分析和安全监控系统等。在多数据流中查找出现的异常行为是异常检测需要处理的问题。在多数据流管理系统中,各条数据流之间往往并非完全独立,而是存在相关性的。比如对于同一水源的供水网络,在正常情况下在各个用户的出水口氯浓度相似。而大规模的机群系统各个节点共同支撑着系统的各种分布式存储与计算,同时各个节点的物理配置和负载量也往往相似。因此对于相互关联的数据流来说,一旦发现它们之间的相关性被破坏,则可断定在这些数据流中存在有异常情况。同时对于独立的单数据流,由于自身就是一个连续的变化过程,因此各个时刻的数据存在着自身的关联性。因此对于独立的单数据流,当它自身的关联性被破坏的时候,则可以判定该数据流发生异常情况。另外,对于多数据流系统,它们的历史状态信息对当前时刻状态的判断具有重要的参考价值,充分考虑历史时刻的状态信息将提高算法的准确性。但是现有的多数据流离群检测算法主要是通过监测多数据流间的相关性来检测异常,而忽略单数据流自身的关联性和历史数据的状态信息的参考价值。因此,本专利技术综合考虑多数据流之间的相关性,单数据流内部的关联性和各个数据流数据的历史状态信息,利用基于滑动窗口和基于数据快照的离群检测技术,研究一种基于多数据流的异常检测方法。
技术实现思路
本专利技术提供一种面向多数据流的异常状态检测方法,同时考虑多数据流之间的相关性和单数据流内部的关联性,并综合参考历史数据的离群信息来量化各个数据流的离群值。对于单数据流,采用基于滑动窗口模型对当前的数据信息进行离群量化,并通过结合指数衰减函数来表示窗口中历史数据的离群信息对当前异常状态判定的参考价值。对于多数据流,采用基于数据快照模型对当前的各个数据流数据进行离群量化,并通过指数衰减函数来表示各个数据流在历史的快照数据集中的离群信息对当前状态判定的参考价值。具体来说,本专利技术提供了一种面向多数据流的异常状态检测方法,该方法包括:步骤1,对多数据流数据参数进行收集;步骤2,对检测算法进行初始化;步骤3,在单数据流滑动窗口中查找当前时刻到达的数据对象的k邻域集合并计算其局部离群系数;步骤4,更新各个数据流当前数据对象的邻域对象的局部离群系数;步骤5,计算基于单数据流的离群信息对数据流当前时刻异常状态判断的参考价值;步骤6,计算基于数据快照的多数据流离群信息对数据流当前时刻异常状态判断的参考价值;步骤7,计算各数据流当前的离群系数;步骤8,判定当前时刻各数据流的异常状态;步骤9,更新数据流的滑动窗口数据集和数据快照集。其中,步骤1的对多数据流数据参数进行收集包括:步骤11,为每一个数据流生成一个基于滑动窗口的正常数据集;步骤12,生成一个基于各个时刻的多数据流数据快照集。其中,步骤2的对检测算法进行初始化包括:步骤21,为了保证后续到达的数据对象的可对比对象都是正常的数据对象,对于任意一个数据流Sj(0<j<n),首先取X(w<X<2w)个时刻的数据进行局部离群量化计算,并计算各个时刻各个数据流的离群系数,然后从w到X中选取最近的该数据流处于正常状态的w个数据对象做为初始的滑动窗口w为滑动窗口的大小,n为数据流的数量;步骤22,从w到X中选取最近的w个数据快照做为初始的数据快照集St=[S(t-w),S(t-w+1),…,S(t)],在每一个数据快照中计算各个数据对象的局部离群系数[Ij(t-w),Ij(t-w+1),…,Ijt](0<j<n),w为滑动窗口的大小,n为数据流的数量。其中,步骤4的更新各个数据流当前数据对象的邻域对象的局部离群系数可表示为:对于任一数据流当前的数据对象sjt的任意一个邻域对象的局部离群系数k表示邻域搜索氛围的大小,和表示对象当前时刻和前一个时刻的离群系数。其中,步骤5的计算基于单数据流的离群信息对数据流当前时刻异常状态判断的参考价值pjt可表示为:λ1是控制滑动窗口中历史数据离群信息对当前时刻状态判断的参考价值随时间的推移衰减速度的快慢。其中,步骤6的计算基于数据快照的多数据流离群信息对数据流当前时刻异常状态判断的参考价值Qjt可表示为:λ2是控制数据快照集中历史数据离群信息对当前时刻状态判断的参考价值随时间的推移衰减速度的快慢。其中,步骤7的计算各数据流当前的离群系数Njt可表示为:Njt=(1-δ)Pjt+δQjt(0≤δ≤1)δ是表示各个数据流之间相关性的大小。其中,步骤9的更新数据流的滑动窗口数据集和数据快照集包括:步骤91,如果数据流Sj(1<j<n)当前时刻处于正常状态,用当前时刻的监测参数sjt替换中最早时刻的参数值sj(t-w-1),否则保存滑动窗口的数据集不变;步骤92,用当前时刻的数据快照S(t)替换数据快照集St-1中最早的数据快照S(t-w-1)。本专利技术的有益功效在于:本专利技术面向多数据流的异常状态检测,根据局部离群系数和数据流异常检测的特性研究一种实时的异常状态检测方法。该方法充分利用单数据流自身的相关性和多数据流之间的关联性,可以实时高效的检测出各个数据流在各个时刻的状态变化。可以促进各种大规模生产管理的自动化和智能化,具有重要的理论意义和应用价值。附图说明图1是本专利技术的多数据流异常状态检测结构图。图2是本专利技术的一种面向多数据流的异常状态检测方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本专利技术再作进一步详细的说明。对于n个数据流S=[S1,S2,…,Sn],当前时刻t的数据快照S(t)=[s1t,s2t,…,snt],各个数据流中基于时间窗口的数据集其中w为时间窗口的大小。本专利技术的主要思想是充分的利用单数据流自身的相关性和多数据流之间的关联性来判断各个数据流当前时刻的异常状态的变化情况。该方法得到的各个数据流的离群系数的变化可以准确的反应各个数据流的异常状态的变化,可以有效的应用到各种大规模生产管理系统的实时异常检测。下面以n个数据流S=[S1,S2,…,Sn]及其任意一个时刻t的异常状态检测分别详细说明每一步骤:步骤1,对n个数据流S=[S1,S2,…,Sn]数据参数进行收集;步骤11,对各个数据流数据进行单独收集,为每一个数据流生成一个基于滑动窗口的数据集其中w为滑动窗口的大小;步骤12,对多数据流数据进行收集生成一个基于各个时刻的多数据流数据快照集St=[本文档来自技高网
...
一种面向多数据流的异常状态检测方法

【技术保护点】
一种面向多数据流的异常状态检测方法,其特征在于,包括以下步骤:步骤1,对多数据流数据参数进行收集;步骤2,对检测算法进行初始化;步骤3,在单数据流滑动窗口中查找当前时刻到达的数据对象的k邻域集合并计算其局部离群系数;步骤4,更新各个数据流当前数据对象的邻域对象的局部离群系数;步骤5,计算基于单数据流的离群信息对数据流当前时刻异常状态判断的参考价值;步骤6,计算基于数据快照的多数据流离群信息对数据流当前时刻异常状态判断的参考价值;步骤7,计算各数据流当前的离群系数;步骤8,判定当前时刻各数据流的异常状态;步骤9,更新数据流的滑动窗口数据集和数据快照集。

【技术特征摘要】
1.一种面向多数据流的异常状态检测方法,其特征在于,包括以下步骤:步骤1,对多数据流数据参数进行收集;步骤2,对检测算法进行初始化;步骤3,在单数据流滑动窗口中查找当前时刻到达的数据对象的k邻域集合并计算其局部离群系数;步骤4,更新各个数据流当前数据对象的邻域对象的局部离群系数;步骤5,计算基于单数据流的离群信息对数据流当前时刻异常状态判断的参考价值;步骤6,计算基于数据快照的多数据流离群信息对数据流当前时刻异常状态判断的参考价值;步骤7,计算各数据流当前的离群系数;步骤8,判定当前时刻各数据流的异常状态;步骤9,更新数据流的滑动窗口数据集和数据快照集。2.根据权利要求1所述的方法,其中,步骤1的对多数据流数据参数进行收集包括:步骤11,为每一个数据流生成一个基于滑动窗口的正常数据集;步骤12,生成一个基于各个时刻的多数据流数据快照集。3.根据权利要求1所述的方法,其中,步骤2的对检测算法进行初始化包括:步骤21,为了保证后续到达的数据对象的可对比对象都是正常的数据对象,对于任意一个数据流Sj(0<j<n),首先取X(w<X<2w)个时刻的数据进行局部离群量化计算,并计算各个时刻各个数据流的离群系数,然后从w到X中选取最近的该数据流处于正常状态的w个数据对象做为初始的滑动窗口w为滑动窗口的大小,n为数据流的数量;步骤22,从w到X中选取最近的w个数据快照做为初始的数据快照集St=[S(t-w),S(t-w+1),…,S(t)],在每一个数据快照中计算各个数据对象的局部离群系数[Ij(t-w),Ij(t-w+1),…,Ijt](0<j<n),w为滑动窗口的大小,n为数据流的数量。4.根据权利要求1所述的方法,其中,步骤4的更...

【专利技术属性】
技术研发人员:肖利民苏书宾阮利张周杰李书攀霍志胜刘玺王赵凯
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1