一种基于隔离森林的海量数据异常值检测算法制造技术

技术编号:23672715 阅读:32 留言:0更新日期:2020-04-04 18:06
本发明专利技术公开了一种新颖的、面向多维数据的改进隔离森林异常值检测算法。利用该算法对于异常值检识别问题,我们只需要通过对原始数据集进行随机采样生成若干个子数据集,然后在每个子数据集上建立隔离树,从而不需要大量的计算和比较。以往的异常值检测需要大量计算每个数据对象之间的距离,此过程非常消耗时间,本发明专利技术在检测异常值的时候,并不需要大量的计算和比较,只需要进行隔离树的构建,然后根据建立的适应度函数利用遗传算法将检测准确度高、差异性大的隔离树选择出来,进而生成隔离森林,实现异常值的识别。本发明专利技术实现了异常值的精确检测,提高了检测的稳定性,减少了计算消耗和内存占用。

An outlier detection algorithm for massive data based on isolated forest

【技术实现步骤摘要】
一种基于隔离森林的海量数据异常值检测算法
本专利技术了一种基于遗传算法的隔离森林算法的异常值检测方法。基于spark平台,通过遗传算法将检测精度高、差异性较大的隔离树选择出来,进而构成隔离森立,然后对异常值进行检测。
技术介绍
异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声。异常检测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点。它的行为与正常的行为有显著的不同。目前针对异常值的检测可大致分为:基于距离、基于密度、基于统计、基于聚类等。基于距离的方法:该方法不依赖于统计检验,通常可以在对象之间定义邻近性度量,异常对象是那些远离大部分其他对象的对象。常用的距离是绝对距离(曼哈顿)和欧式距离等,一般情况下,在低维空间用距离来度量效果较好,但在高维空间中效果并不好。如果将低维空间中基于距离问题的解决方法推广到高维空间,将会因为难以预料的纬度灾难问题。基于密度的方法:从基于密度的观点来看,离群点是在低密度区域中的对象,基于密度的离群点检本文档来自技高网...

【技术保护点】
1.基于隔离森林的改进异常值检测算法,其特征在于:/n1)基于spark平台,采用spark-yarn分布式模式运行;/n2)定义了检测准确度和差异性;/n3)定义了适应度函数,添加了遗传算法的选择过程;/n4)对构建隔离森林的过程利用遗传算法进行了优化。/n

【技术特征摘要】
1.基于隔离森林的改进异常值检测算法,其特征在于:
1)基于spark平台,采用spark-yarn分布式模式运行;
2)定义了检测准确度和差异性;
3)定义了适应度函数,添加了遗传算法的选择过程;
4)对构建隔离森林的过程利用遗传算法进行了优化。


2.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于利用spark平台,采用spark-yarn分布式模式进行测试,对于构建完成隔离树生成隔离森立的过程添加了选择过程。通过定义的检测精度、隔离树的差异性和适应度函数,利用遗传算法对隔离树进行选择,然后将选中的隔离树生成隔离森林。相比于其他的异常值检测算法,该算法能够减少不必要的内存占用和大量的计算消耗,提高了检测精度,节约了内存占用和计算开销。


3.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于定义每棵隔离树的检测精度和差异性。根据给出的原始数据通过随机采样的方式建立M棵隔离(T1,T2,…,TM)作为初始化搜索空间,给出训练数据集Dtrain={d1,d2,…,dn},对于每个训练样本di,1≤i≤n,如果Ti,1≤i≤M能够正确检测出异常值,记ri=1,1≤i≤n,否则为0。即:



对于每一棵隔离构建结果向量Vi={r1,r2,…,rn},1≤i≤M。定义每棵树的准确度为:



两棵树Ti和Tj之间的相似度为:



上式中·表示向量的内积,×表示普通乘法,表示向量的长度。从而构建M棵隔离的相似性系数矩阵:





4.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于建立适应度函数,利用遗传算法对隔离树进行...

【专利技术属性】
技术研发人员:李科心李静沈力杜红军刘树吉陈硕乔林
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1