一种基于隔离森林的海量数据异常值检测算法制造技术

技术编号：23672715 阅读：32 留言：0更新日期：2020-04-04 18:06

本发明专利技术公开了一种新颖的、面向多维数据的改进隔离森林异常值检测算法。利用该算法对于异常值检识别问题，我们只需要通过对原始数据集进行随机采样生成若干个子数据集，然后在每个子数据集上建立隔离树，从而不需要大量的计算和比较。以往的异常值检测需要大量计算每个数据对象之间的距离，此过程非常消耗时间，本发明专利技术在检测异常值的时候，并不需要大量的计算和比较，只需要进行隔离树的构建，然后根据建立的适应度函数利用遗传算法将检测准确度高、差异性大的隔离树选择出来，进而生成隔离森林，实现异常值的识别。本发明专利技术实现了异常值的精确检测，提高了检测的稳定性，减少了计算消耗和内存占用。

An outlier detection algorithm for massive data based on isolated forest

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隔离森林的海量数据异常值检测算法
本专利技术了一种基于遗传算法的隔离森林算法的异常值检测方法。基于spark平台，通过遗传算法将检测精度高、差异性较大的隔离树选择出来，进而构成隔离森立，然后对异常值进行检测。
技术介绍
异常是在数据集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制。聚类算法对异常的定义：异常是聚类嵌于其中的背景噪声。异常检测算法对异常的定义：异常是既不属于聚类也不属于背景噪声的点。它的行为与正常的行为有显著的不同。目前针对异常值的检测可大致分为：基于距离、基于密度、基于统计、基于聚类等。基于距离的方法：该方法不依赖于统计检验，通常可以在对象之间定义邻近性度量，异常对象是那些远离大部分其他对象的对象。常用的距离是绝对距离(曼哈顿)和欧式距离等，一般情况下，在低维空间用距离来度量效果较好，但在高维空间中效果并不好。如果将低维空间中基于距离问题的解决方法推广到高维空间，将会因为难以预料的纬度灾难问题。基于密度的方法：从基于密度的观点来看，离群点是在低密度区域中的对象...

【技术保护点】
1.基于隔离森林的改进异常值检测算法，其特征在于：/n1)基于spark平台，采用spark-yarn分布式模式运行；/n2)定义了检测准确度和差异性；/n3)定义了适应度函数，添加了遗传算法的选择过程；/n4)对构建隔离森林的过程利用遗传算法进行了优化。/n

【技术特征摘要】
1.基于隔离森林的改进异常值检测算法，其特征在于：
1)基于spark平台，采用spark-yarn分布式模式运行；
2)定义了检测准确度和差异性；
3)定义了适应度函数，添加了遗传算法的选择过程；
4)对构建隔离森林的过程利用遗传算法进行了优化。

2.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法，其特征在于利用spark平台，采用spark-yarn分布式模式进行测试，对于构建完成隔离树生成隔离森立的过程添加了选择过程。通过定义的检测精度、隔离树的差异性和适应度函数，利用遗传算法对隔离树进行选择，然后将选中的隔离树生成隔离森林。相比于其他的异常值检测算法，该算法能够减少不必要的内存占用和大量的计算消耗，提高了检测精度，节约了内存占用和计算开销。

3.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法，其特征在于定义每棵隔离树的检测精度和差异性。根据给出的原始数据通过随机采样的方式建立M棵隔离(T1，T2，…，TM)作为初始化搜索空间，给出训练数据集Dtrain＝{d1，d2，…，dn}，对于每个训练样本di，1≤i≤n，如果Ti，1≤i≤M能够正确检测出异常值，记ri＝1，1≤i≤n，否则为0。即：

对于每一棵隔离构建结果向量Vi＝{r1，r2，…，rn}，1≤i≤M。定义每棵树的准确度为：

两棵树Ti和Tj之间的相似度为：

上式中·表示向量的内积，×表示普通乘法，表示向量的长度。从而构建M棵隔离的相似性系数矩阵：

4.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法，其特征在于建立适应度函数，利用遗传算法对隔离树进行...

【专利技术属性】
技术研发人员：李科心，李静，沈力，杜红军，刘树吉，陈硕，乔林，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人