【技术实现步骤摘要】
一种基于隔离森林的海量数据异常值检测算法
本专利技术了一种基于遗传算法的隔离森林算法的异常值检测方法。基于spark平台,通过遗传算法将检测精度高、差异性较大的隔离树选择出来,进而构成隔离森立,然后对异常值进行检测。
技术介绍
异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声。异常检测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点。它的行为与正常的行为有显著的不同。目前针对异常值的检测可大致分为:基于距离、基于密度、基于统计、基于聚类等。基于距离的方法:该方法不依赖于统计检验,通常可以在对象之间定义邻近性度量,异常对象是那些远离大部分其他对象的对象。常用的距离是绝对距离(曼哈顿)和欧式距离等,一般情况下,在低维空间用距离来度量效果较好,但在高维空间中效果并不好。如果将低维空间中基于距离问题的解决方法推广到高维空间,将会因为难以预料的纬度灾难问题。基于密度的方法:从基于密度的观点来看,离群点是在低密度区域中的对象 ...
【技术保护点】
1.基于隔离森林的改进异常值检测算法,其特征在于:/n1)基于spark平台,采用spark-yarn分布式模式运行;/n2)定义了检测准确度和差异性;/n3)定义了适应度函数,添加了遗传算法的选择过程;/n4)对构建隔离森林的过程利用遗传算法进行了优化。/n
【技术特征摘要】
1.基于隔离森林的改进异常值检测算法,其特征在于:
1)基于spark平台,采用spark-yarn分布式模式运行;
2)定义了检测准确度和差异性;
3)定义了适应度函数,添加了遗传算法的选择过程;
4)对构建隔离森林的过程利用遗传算法进行了优化。
2.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于利用spark平台,采用spark-yarn分布式模式进行测试,对于构建完成隔离树生成隔离森立的过程添加了选择过程。通过定义的检测精度、隔离树的差异性和适应度函数,利用遗传算法对隔离树进行选择,然后将选中的隔离树生成隔离森林。相比于其他的异常值检测算法,该算法能够减少不必要的内存占用和大量的计算消耗,提高了检测精度,节约了内存占用和计算开销。
3.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于定义每棵隔离树的检测精度和差异性。根据给出的原始数据通过随机采样的方式建立M棵隔离(T1,T2,…,TM)作为初始化搜索空间,给出训练数据集Dtrain={d1,d2,…,dn},对于每个训练样本di,1≤i≤n,如果Ti,1≤i≤M能够正确检测出异常值,记ri=1,1≤i≤n,否则为0。即:
对于每一棵隔离构建结果向量Vi={r1,r2,…,rn},1≤i≤M。定义每棵树的准确度为:
两棵树Ti和Tj之间的相似度为:
上式中·表示向量的内积,×表示普通乘法,表示向量的长度。从而构建M棵隔离的相似性系数矩阵:
4.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法,其特征在于建立适应度函数,利用遗传算法对隔离树进行...
【专利技术属性】
技术研发人员:李科心,李静,沈力,杜红军,刘树吉,陈硕,乔林,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。