一种基于模拟退火的扩展孤立森林的异常检测方法及系统技术方案

技术编号：34690005 阅读：12 留言：0更新日期：2022-08-27 16:24

本发明专利技术公开了一种基于模拟退火的扩展孤立森林的异常检测方法及系统，本发明专利技术从EIF算法泛化能力弱、构建了冗余的iTree导致算法的时间开销较大等问题入手，根据选择性集成思想提出一种基于模拟退火的扩展孤立森林方法，对构建EIF的iTree使用了择优再组合的集成方法，最终在ODDS异常检测数据集中的实验结果表明，SA

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模拟退火的扩展孤立森林的异常检测方法及系统

[0001]本专利技术涉及数据挖掘，特别是一种基于模拟退火的扩展孤立森林的异常检测方法及系统。

技术介绍

[0002]在数据挖掘中，异常检测是指对不符合预期模式的样本进行识别，从数据集中识别出与大多数样本差异较大的对象。异常点也被称为离群值、噪声和偏差等通常被认为是与其他数据点明显不同或不符合整体预期正常模式的数据点异常检测是数据挖掘领域中一个重要的方面，被广泛应用于各个领域。例如，在医学领域中，异常数据可能意味着禽流感等传染类疾病的预警，而在天文领域中，异常数据则可能标志着新星的发现。因此，异常数据可能具备和正常数据相等的科学价值。
[0003]虽然异常目前在关键技术上已经有所突破，但它仍存在许多问题，如局部异常点不敏感的问题。根据异常检测所使用技术的不同，分为基于连接函数的异常检测方法，基于距离的异常检测方法，基于密度评估的异常检测方法等。在基于密度评估的局部异常检测方法中，解决了数据倾斜分布下的异常检测问题，基于密度评估的局部离群因子检测方法通过计算局部可达密度来得到每一个样本点的局部离群因子，最后根据阈值判断该样本点是否异常，取得了较好的结果，但是，基于密度评估的局部异常检测方法时间复杂度均在O(n2)，这种方法在大规模数据集上的计算成本很高。同时，因为数据相似度的计算离不开距离计算，所以可能会面临距离计算上的“维数灾难”问题。随着大数据时代的到来，数据集的数量和维度呈爆炸式增长，基于此，设计出在高维数据集上表现良好的异常检测算法具有重要意义。/>
技术实现思路

[0004]专利技术目的：本专利技术的目的是提供一种基于模拟退火的扩展孤立森林的异常检测方法及系统，从而在保证精度的同时减少时间成本。
[0005]技术方案：本专利技术所述的一种基于模拟退火的扩展孤立森林的异常检测方法，包括以下步骤：
[0006]S1、数据采集：通过离群值检测数据库收集其中的真实数据集，所述数据集包括低维数据集和高维数据集，样本数量较少的数据集和样本数量较多的数据集；
[0007]S2、数据预处理：对于样本数量较少的数据集Lympho，则采用10折交叉验证求平均值的方法进行实验，对于其他数据集则采用5折交叉验证法；设置iTree的初始参数，构建L棵iTree组成初始EIF，使用数据集对参与集成的L棵iTree进行训练，基于Q
‑
统计量法计算iTree之间的平均差异值，再根据K折交叉验证法计算每棵iTree的精度值；
[0008]S3、结合模拟退火算法构建EIF：结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF；算法重复执行“产生新解
→
计算目标函数差
→
判断是否接受新解
→
接受或舍弃”的迭代过程，如果满足终止条件则终止上述过程，并输出当前选择的iTree；
否则，减小控制参数t的值，并重复上述过程；最终使用从T棵iTree中选择的k棵iTree来构建EIF；
[0009]S4、结果评测：对测试集X使用构建的EIF进行检测，根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。
[0010]所述步骤S3具体为：
[0011]S3.1、首先初始化参数：设初始温度t＝t0，结束温度t'，Metropolis链的长度即任意温度的迭代次数C，任取一棵iTree作为初解T
i
；
[0012]S3.2、产生新解：基于当前温度t的大小，随机扰动产生一个新解T
j
；
[0013]S3.3、计算目标函数差：Δf＝F(T
j
‑
F(T
i
)；其中，F(T
i
)，F(T
j
)分别为树T
i
和T
j
的适应度值；
[0014]S3.4、判断是否接受新解：根据Metropolis接受准则，若Δf<0，则接受Tj作为新的当前解；否则以概率接受T
j
作为新的当前解，其中，k是玻尔兹曼常数；
[0015]S3.5、判断在当前温度t下，是否达到迭代次数C，若不满足迭代次数，则返回至S3.2；
[0016]S3.6、当满足模拟退火算法规定的终止条件，则返回当前解为最优解；终止条件如下：A、连续若干个Metropolis中都没有新解被采用；B、t≤t'，即当前温度t小于等于设定的结束温度t'，若不满足终止条件，则根据温度衰减函数缓慢降低当前温度t，并返回至S3.2，衰减函数如公式(1)所示：
[0017][0018]S3.7、最终从T棵iTree中筛选出k(k≤L)棵检测性能较优的iTree构建EIF。
[0019]步骤S4中对于异常分数的评估指标如下：
[0020]A、E(h(x))
→
n
‑
1，s
→
0，说明x平均路径越长，越不容易被孤立，越有可能为正常点；
[0021]B、E(h(x))
→
0，s
→
1，说明x越容易被孤立，越有可能为异常点；
[0022]C、E(h(x))
→
c(ψ)，s
→
0.5，说明实例x的平均路径长度E(h(x))与iTree中查找点失败的平均路径c(ψ)相近，则x可能为异常点，也可能为正常点。
[0023]一种基于模拟退火的扩展孤立森林的异常检测系统，所述系统采用了上述的一种基于模拟退火的扩展孤立森林的异常检测方法，所述系统包括以下模块：
[0024]数据采集模块：主要负责通过爬虫技术在数据平台进行数据爬取。
[0025]预处理模块：主要负责对采集到的数据进行筛选过滤，选择符合要求的数据进行下一步的处理分析。
[0026]数据处理模块：结合模拟退火算法构建EIF，对预处理的数据进行算法迭代操作后，选择一定数量的iTree来构建EIF。
[0027]结果评测模块：计算数据处理后的平均路径长度与异常分数，从而判定是否为异常点。
[0028]一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
[0029]一种计算机设备，包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
[0030]有益效果：与现有技术相比，本专利技术具有如下优点：本专利技术从EIF算法泛化能力弱、构建了冗余的iTree导致算法的时间开销较大等问题入手，根据选择性集成思想提出一种基于模拟退火的扩展孤立森林方法，对构建EIF的iTree使用了择优再组合的集成方法，最终在ODDS异常检测数据集中的实验结果表明，SA
‑
ELF算法较EIF算法提升本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于模拟退火的扩展孤立森林的异常检测方法，其特征在于，包括以下步骤：S1、数据采集：通过离群值检测数据库收集其中的真实数据集，所述数据集包括低维数据集和高维数据集，样本数量较少的数据集和样本数量较多的数据集；S2、数据预处理：对于样本数量较少的数据集Lympho，则采用10折交叉验证求平均值的方法进行实验，对于其他数据集则采用5折交叉验证法；设置iTree的初始参数，构建L棵iTree组成初始EIF，使用数据集对参与集成的L棵iTree进行训练，基于Q
‑
统计量法计算iTree之间的平均差异值，再根据K折交叉验证法计算每棵iTree的精度值；S3、结合模拟退火算法构建EIF：结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF；算法重复执行“产生新解
→
计算目标函数差
→
判断是否接受新解
→
接受或舍弃”的迭代过程，如果满足终止条件则终止上述过程，并输出当前选择的iTree；否则，减小控制参数t的值，并重复上述过程；最终使用从T棵iTree中选择的k棵iTree来构建EIF；S4、结果评测：对测试集X使用构建的EIF进行检测，根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。2.根据权利要求1所述的一种基于模拟退火的扩展孤立森林的异常检测方法，其特征在于，所述步骤S3具体为：S3.1、首先初始化参数：设初始温度t＝t0，结束温度t'，Metropolis链的长度即任意温度的迭代次数C，任取一棵iTree作为初解T
i
；S3.2、产生新解：基于当前温度t的大小，随机扰动产生一个新解T
j
；S3.3、计算目标函数差：Δf＝F(T
j
‑
F(T
i
)；其中，F(T
i
)，F(T
j
)分别为树T
i
和T
j
的适应度值；S3.4、判断是否接受新解：根据Metropolis接受准则，若Δf<0，则接受Tj作为新的当前解；否则以概率接受T
j
作为新的当前解，其中，k是玻尔兹曼...

【专利技术属性】
技术研发人员：吴永凯，王诗愉，杨煜杭，应文豪，
申请(专利权)人：江苏易透健康科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人