当前位置: 首页 > 专利查询>西南大学专利>正文

一种基于排名聚合和堆叠的异常检测方法技术

技术编号:35412222 阅读:9 留言:0更新日期:2022-11-03 11:08
本发明专利技术涉及异常检测技术领域,具体公开了一种基于排名聚合和堆叠的异常检测方法,首先通过使用各种无监督的异常检测算法来丰富特征空间,向模型注入多样性,然后对异常点得分进行排序聚合,得到异常值矩阵O(X

【技术实现步骤摘要】
一种基于排名聚合和堆叠的异常检测方法


[0001]本专利技术涉及异常检测
,尤其涉及一种基于排名聚合和堆叠的异常检测方法。

技术介绍

[0002]随着大数据时代的到来,人们不再为数据匮乏而感到困扰,反而越来越关注数据的质量问题并开始探讨从大量数据中提取最有价值信息的方法设计与理论研究。作为该系列研究的重大研究课题之一,异常检测侧重于检测和识别数据集中与大部分样本存在显著差异的异常样本,已成为在网络安全的入侵检测、机器设备的故障检测、医疗图像的癌变细胞识别、金融行业的信用卡欺诈检测等多个领域的热门研究话题。目前大多数的异常检测研究专门针对某个领域的特定异常类而设计,因此无法同时实现对不同领域的多种异常类的有效检测,从而具有较差的泛化能力。事实上,在实际应用场景中大部分异常类并不能事先获取,在其检测过程中甚至会出现多种未知的新异常。算法的泛化能力在异常检测中显得尤为重要,设计一种具有更高泛化性能的算法以适应于不同领域不同类异常的识别与检测是一项具有重要意义的任务。
[0003]集成学习通过结合多个算法的优势来取得比单个算法更好的泛化性能,该技术在传统机器学习分类和聚类问题中展现了非常好的效果并已被验证可有效提升算法的泛化能力。而集成学习应用于异常检测的技术(简称“异常集成”)仍处在发展阶段,目前异常集成不如传统的聚类和分类集成问题成熟,一方面,无监督的属性和基本事实的缺乏使得它们的构建变得困难。另一方面,缺乏有效的无监督多样性度量方法以量化分析模型的多样性和稳定性。虽然在模型组合阶段,目前已有部分表现良好的组合策略,但缺少不同组合策略的差异性分析以及关于自适应选取最合理组合策略的研究,如果在模型组合过程中加入了不合适的基检测器,将直接影响模型的稳定性和准确性。

技术实现思路

[0004]本专利技术提供一种基于排名聚合和堆叠的异常检测方法,解决的技术问题在于:目前的异常集成仍不够成熟,模型的准确性和稳定性有待提高。
[0005]为解决以上技术问题,本专利技术提供一种基于排名聚合和堆叠的异常检测方法,包括步骤:
[0006]S1、选择数据集数据集X具有N个样本,每个样本具有d个特征,并将数据集X的n个样本作为训练集其余m个样本作为测试集
[0007]S2、选择多种无监督的异常检测算法,并且每个所述异常检测算法使用不同的超参数来构建共R个基检测器,得到由R个基检测器构成的异常检测算法池;
[0008]S3、将所述训练集X
train
输入到所述异常检测算法池中进行训练得到R个异常值得分向量C1(X
train
),

,C
r
(X
train
),

,C
R
(X
train
),C
r
(
·
)表示来自第r个基检测器的异常值得
分向量,并将R个异常值得分向量合并到异常值矩阵分向量,并将R个异常值得分向量合并到异常值矩阵中;
[0009]S4、采用基于排名聚合异常分数方法的异常值得分函数Φ(
·
)对所述异常值矩阵O(X
train
)进行整合,得到异常值得分矩阵作为训练集X
train
的伪标签;
[0010]S5、构建基于堆叠的动态分类器选择集成模型;
[0011]S6、将带有所述伪标签的所述训练集X
train
、所述测试集X
test
输入所述动态分类器选择集成模型中进行训练和测试,获得同时对不同领域的多种异常类数据进行有效检测的异常集成检测模型。
[0012]进一步地,所述动态分类器选择集成模型包括分类器选择模块、堆叠第一层和堆叠第二层,所述分类器选择模块用于从候选分类器池中动态选择性能最优的前k个分类器构成选择后分类器池,所述堆叠第一层用于根据输入的训练集X
train
、所述测试集X
test
对选择后分类器池进行训练、验证和测试,并将每个分类器的验证结果集和测试结果集拼接在一起,作为堆叠第二层的训练和测试数据,所述堆叠第二层用于生成最终的预测结果。
[0013]进一步地,所述步骤S6具体包括步骤:
[0014]S61、选择K个候选基分类器构成候选分类器池,自动优化K个候选基分类器的参数,动态选择性能最好的前k个候选基分类器作为所述堆叠第一层的k个基学习器;
[0015]S62、针对每个所述基学习器,将所述训练集X
train
分成k折,进行k次训练,对于每一次训练,保留k分之一的样本作为验证集进行验证,得到k个验证结果合并作为验证结果集;将所述测试集X
test
分成k折,k次训练后对所述测试集X
test
进行预测,得到k个预测结果取平均值作为测试结果集;
[0016]S63、将每个所述基学习器的验证结果集和测试结果集拼接在一起,作为所述堆叠第二层的训练和测试数据;
[0017]S64、所述堆叠第二层基于输入的训练和测试数据进行训练和测试,完成后得到异常集成检测模型。
[0018]进一步地,所述堆叠第二层采用逻辑回归作为元学习器来获得最终的预测结果。
[0019]进一步地,所述步骤S4具体包括步骤:
[0020]S41、针对异常值矩阵O(X
train
)的每列异常值分数,将其排名除以排名列表的长度,以计算每个样本点的归一化排名,得到一个归一化的排名向量r=(r1,

,r
j
,

,r
R
),其中r
j
表示样本在第j个基检测器中的归一化排序;
[0021]S42、对于任何归一化的排名向量r
i
,对其进行重新排序以获得r
i
=(r
i1
,r
i2
,

,r
iR
),使得r
i1


≤r
iR

[0022]S43、根据重新排列的所有的排名向量计算各自最终的聚合异常值,合并得到异常值得分矩阵Φ(O(X
train
))。
[0023]进一步地,所述步骤S43具体包括步骤:
[0024]S431、对于样本点j排序后的排名向量表示为r
(j)
=(r
j1
,r
j2
,

,r
jR
),是取样自零模型的一组向量,也按照大小排名获得然后分别计算的概率r,得到样本点j的二项式概率:
[0025][0026]S432、由于每个样本点都在R个基检测器中进行检测,因此检验后会获得R个二项式概率即P值,取其中最小的P值来代表这个样本点的聚合异常值,即:
[0027]S43本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于排名聚合和堆叠的异常检测方法,其特征在于,包括步骤:S1、选择数据集数据集X具有N个样本,每个样本具有d个特征,并将数据集X的n个样本作为训练集其余m个样本作为测试集S2、选择多种无监督的异常检测算法,并且每个所述异常检测算法使用不同的超参数来构建共R个基检测器,得到由R个基检测器构成的异常检测算法池;S3、将所述训练集X
train
输入到所述异常检测算法池中进行训练得到R个异常值得分向量C1(X
train
),

,C
r
(X
train
),

,C
R
(X
train
),C
r
(
·
)表示来自第r个基检测器的异常值得分向量,并将R个异常值得分向量合并到异常值矩阵量,并将R个异常值得分向量合并到异常值矩阵中;S4、采用基于排名聚合异常分数方法的异常值得分函数Φ(
·
)对所述异常值矩阵O(X
train
)进行整合,得到异常值得分矩阵作为训练集X
train
的伪标签;S5、构建基于堆叠的动态分类器选择集成模型;S6、将带有所述伪标签的所述训练集X
train
、所述测试集X
test
输入所述动态分类器选择集成模型中进行训练和测试,获得同时对不同领域的多种异常类数据进行有效检测的异常集成检测模型。2.根据权利要求1所述的一种基于排名聚合和堆叠的异常检测方法,其特征在于,所述动态分类器选择集成模型包括分类器选择模块、堆叠第一层和堆叠第二层,所述分类器选择模块用于从候选分类器池中动态选择性能最优的前k个分类器构成选择后分类器池,所述堆叠第一层用于根据输入的训练集X
train
、所述测试集X
test
对选择后分类器池进行训练、验证和测试,并将每个分类器的验证结果集和测试结果集拼接在一起,作为堆叠第二层的训练和测试数据,所述堆叠第二层用于生成最终的预测结果。3.根据权利要求2所述的一种基于排名聚合和堆叠的异常检测方法,其特征在于,所述步骤S6具体包括步骤:S61、选择K个候选基分类器构成候选分类器池,自动优化K个候选基分类器的参数,动态选择性能最好的前k个候选基分类器作为所述堆叠第一层的k个基学习器;S62、针对每个所述基学习器,将所述训练集X
train
分成k折,进行k次训练,对于每一次训练,保留k分之一的样本作为验证集进行验证,得到k个验证结果合并作为验证结果集;将所述测试集X
test
分成k折,k次训练后对所述测试集X
test
进行预测,得到k个预测结果取平均值作为测试结果集;S63、将每个所述基...

【专利技术属性】
技术研发人员:陶丽蒋正超孔盛洲许浩吴宗泽刘炳辰
申请(专利权)人:西南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1