一种环境异常检测方法和系统技术方案

技术编号:30408030 阅读:30 留言:0更新日期:2021-10-20 11:18
本发明专利技术公开了一种环境异常检测方法和系统,包括:构建具有局部敏感特性的Isolation Forest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。本发明专利技术提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的IsolationForest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。的技术问题。的技术问题。

【技术实现步骤摘要】
一种环境异常检测方法和系统


[0001]本专利技术涉及数据挖掘
,尤其涉及一种环境异常检测方法和系统。

技术介绍

[0002]在信息化时代数据的爆炸式增长下,对数据进行挖掘分析显得尤为重要。异常检测是数据挖掘领域的一个重要分支,指通过数据挖掘手段识别数据中的异常点。异常点是使用不同机制产生的且数量上相对较少的点,在实际场景中,其往往包含着更为重要的信息。
[0003]用于环境异常数据检测的算法有多种,其中比较常用的是Isolation Forest算法和局部异常因子算法(Local Outlier Factor,LOF)。Isolation Forest算法是基于样本整体的异常检测方法,由于其不用通过计算样本点间距或密度寻找异常数据,因此可以很好地处理大量的高维数据(如环境检测数据),除此之外,算法还有内存要求低、处理速度快等优点,但缺点是Isolation Forest算法对局部的异常点不敏感,例如对细微的环境异常波动,其并不能精准的进行检测。LOF算法是比较有代表性的基于相似度衡量的算法。由于环境检测数据不是均匀分布的,利用基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种环境异常检测方法,其特征在于,包括:构建具有局部敏感特性的Isolation Forest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。2.根据权利要求1所述的环境异常检测方法,其特征在于,构建具有局部敏感特性的Isolation Forest模型,包括以下步骤:S11、获取环境数据训练集;S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的Isolation Forest模型。3.根据权利要求2所述的环境异常检测方法,其特征在于,将环境数据训练集划分到多个哈希桶内,包括:将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,t
n
),t
i
(1≤i≤n)为单条环境数据样本中的属性值;使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。4.根据权利要求3所述的环境异常检测方法,其特征在于,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。5.根据权利要求4所述的环境异常检测方法,其特征在于,阈值T取值为T=ωlog2(ψ),ω为常数变量。6.根据权利要求5所述的环境异常检测方法,其特征在于,基于LOF算法对候选异常数
据集进行异常数据判定,输出异...

【专利技术属性】
技术研发人员:岑纪鹏
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1