【技术实现步骤摘要】
一种基于排名聚合和堆叠的异常检测方法
[0001]本专利技术涉及异常检测
,尤其涉及一种基于排名聚合和堆叠的异常检测方法。
技术介绍
[0002]随着大数据时代的到来,人们不再为数据匮乏而感到困扰,反而越来越关注数据的质量问题并开始探讨从大量数据中提取最有价值信息的方法设计与理论研究。作为该系列研究的重大研究课题之一,异常检测侧重于检测和识别数据集中与大部分样本存在显著差异的异常样本,已成为在网络安全的入侵检测、机器设备的故障检测、医疗图像的癌变细胞识别、金融行业的信用卡欺诈检测等多个领域的热门研究话题。目前大多数的异常检测研究专门针对某个领域的特定异常类而设计,因此无法同时实现对不同领域的多种异常类的有效检测,从而具有较差的泛化能力。事实上,在实际应用场景中大部分异常类并不能事先获取,在其检测过程中甚至会出现多种未知的新异常。算法的泛化能力在异常检测中显得尤为重要,设计一种具有更高泛化性能的算法以适应于不同领域不同类异常的识别与检测是一项具有重要意义的任务。
[0003]集成学习通过结合多个算法的优势来取得比单个算法更好的泛化性能,该技术在传统机器学习分类和聚类问题中展现了非常好的效果并已被验证可有效提升算法的泛化能力。而集成学习应用于异常检测的技术(简称“异常集成”)仍处在发展阶段,目前异常集成不如传统的聚类和分类集成问题成熟,一方面,无监督的属性和基本事实的缺乏使得它们的构建变得困难。另一方面,缺乏有效的无监督多样性度量方法以量化分析模型的多样性和稳定性。虽然在模型组合阶段,目前已有部分表现良好的 ...
【技术保护点】
【技术特征摘要】
1.一种基于排名聚合和堆叠的异常检测方法,其特征在于,包括步骤:S1、选择数据集数据集X具有N个样本,每个样本具有d个特征,并将数据集X的n个样本作为训练集其余m个样本作为测试集S2、选择多种无监督的异常检测算法,并且每个所述异常检测算法使用不同的超参数来构建共R个基检测器,得到由R个基检测器构成的异常检测算法池;S3、将所述训练集X
train
输入到所述异常检测算法池中进行训练得到R个异常值得分向量C1(X
train
),
…
,C
r
(X
train
),
…
,C
R
(X
train
),C
r
(
·
)表示来自第r个基检测器的异常值得分向量,并将R个异常值得分向量合并到异常值矩阵量,并将R个异常值得分向量合并到异常值矩阵中;S4、采用基于排名聚合异常分数方法的异常值得分函数Φ(
·
)对所述异常值矩阵O(X
train
)进行整合,得到异常值得分矩阵作为训练集X
train
的伪标签;S5、构建基于堆叠的动态分类器选择集成模型;S6、将带有所述伪标签的所述训练集X
train
、所述测试集X
test
输入所述动态分类器选择集成模型中进行训练和测试,获得同时对不同领域的多种异常类数据进行有效检测的异常集成检测模型。2.根据权利要求1所述的一种基于排名聚合和堆叠的异常检测方法,其特征在于,所述动态分类器选择集成模型包括分类器选择模块、堆叠第一层和堆叠第二层,所述分类器选择模块用于从候选分类器池中动态选择性能最优的前k个分类器构成选择后分类器池,所述堆叠第一层用于根据输入的训练集X
train
、所述测试集X
test
对选择后分类器池进行训练、验证和测试,并将每个分类器的验证结果集和测试结果集拼接在一起,作为堆叠第二层的训练和测试数据,所述堆叠第二层用于生成最终的预测结果。3.根据权利要求2所述的一种基于排名聚合和堆叠的异常检测方法,其特征在于,所述步骤S6具体包括步骤:S61、选择K个候选基分类器构成候选分类器池,自动优化K个候选基分类器的参数,动态选择性能最好的前k个候选基分类器作为所述堆叠第一层的k个基学习器;S62、针对每个所述基学习器,将所述训练集X
train
分成k折,进行k次训练,对于每一次训练,保留k分之一的样本作为验证集进行验证,得到k个验证结果合并作为验证结果集;将所述测试集X
test
分成k折,k次训练后对所述测试集X
test
进行预测,得到k个预测结果取平均值作为测试结果集;S63、将每个所述基...
【专利技术属性】
技术研发人员:陶丽,蒋正超,孔盛洲,许浩,吴宗泽,刘炳辰,
申请(专利权)人:西南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。