基于双层异质集成学习器的入侵检测方法技术

技术编号:22849273 阅读:25 留言:0更新日期:2019-12-17 23:22
本发明专利技术公开一种基于双层异质集成学习器的入侵检测方法,包括以下步骤:使用PKPCA数据降维算法对原始数据进行降维处理,得到预处理数据集;使用N个分类器对预处理数据集进行处理,使用分层十折交叉验证方法防止过拟合;采用分类器评估算法选择表现最好的M个分类器作为异质学习器,其中2≤M<N;执行多分类器融合算法对M个分类器的输出结果进行基于概率的加权投票,该概率是指分类器对于每个输入向量所对应的输出类别的概率,采用对M个分类器的概率加权公式来得到其权值,投票结果作为最后的入侵检测结果。本发明专利技术能够在保证准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。

Intrusion detection method based on two-layer Heterogeneous Integrated learner

【技术实现步骤摘要】
基于双层异质集成学习器的入侵检测方法
本专利技术提出一种基于双层异质集成学习器的入侵检测方法,它采用了基于异常的策略进行入侵检测,属于网络安全领域。
技术介绍
入侵检测技术是检测网络安全攻击的常用方法。当前入侵检测分为两大类方法,一类是基于误用的入侵检测方法,采用的是签名模式匹配的方法,该类方法基本原理是将已知的签名或攻击模式与受监控的流量进行匹配以此来监控入侵标志的网络流量信息。其优点在于误报率较低,其难点在于如何设计模式既能够表达“入侵”现象,又不会将正常的活动包含进来。它的缺点在于只能够对已知的攻击进行建模,很难检测到未写入规则库的攻击;此外,在发现新攻击和部署其相应签名之间可能存在较大的时间间隔,安全管理员也需对开发的签名进行管理、分发、保持最新。一旦攻击者稍微修改一些已知的恶意软件,就会带来较大挑战。另一类是基于异常的入侵检测方法,基本原理是通过在训练阶段对正常网络行为进行建模,然后部署学习模型以监视网络流量来寻找入侵迹象。相比基于误用的入侵检测方法,其优点在于能够检测出未知的攻击,但是仍然存在误报率和漏报率较高的缺点。为此,提出了本专利技术的方法,通过采用学习器集成的异常检测方法在保证检测率的情况下,减少入侵检测的误报率和漏报率。在基于异常的网络入侵检测中,很多研究者对机器学习算法进行了改进和应用。将传统机器学习的入侵检测方法分为两类:使用单个分类器进行入侵检测,以及融合多个分类器来进行检测。使用单个分类器的检测方法具有较高错误率,因为在分类过程中,这些方法的性能通常会随着不同的分类器和/或不同的数据集的变化而变化,因此会产生较高错误率。而以合理的方式融合多个分类器可以减少整体分类错误并增强模型的泛化能力。这个融合过程被称为集成学习。近年来,基于深度学习的异常检测研究也越来越广泛。然而,由于缺乏理论基础、超参数和网络设计,深度神经网络被认为是一个“黑匣子”,其计算非常耗时,解释性也较差。同时,通过应用传统的机器学习方法,可以轻松调整超参数并改变模型设计。因此,使用传统的机器学习模型更具说明性和效率。集成学习具有很强的泛化能力,可以降低错误率,因此几种传统分类器的组合可以降低错误率,使能够更全面地了解数据和底层算法。对于入侵检测,还需要考虑时间消耗,因为许多研究人员以牺牲过多的时间消耗为代价来提高模型的检测率。这对于入侵检测来说是不可取的,因为大量的时间消耗会影响其实用性。综上所述,目前有关入侵检测的应用大都无法应对未知的攻击,而基于异常的入侵检测方法虽然已经有一些初步的应用,但是大都以时间消耗为代价来保证误报率和漏报率。由于入侵检测误报和漏报的代价较高,已有的方法并不能完全达到高精确率、低误报率漏报率,和时间消耗较小的入侵检测要求。
技术实现思路
为解决上述问题,本专利技术提出一种基于双层异质集成学习器的入侵检测方法(intrusiondetectionmodelusingdouble-layerheterogeneousensemblelearnerstrategy,IDHEL),能够在保证准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。一种基于双层异质集成学习器的入侵检测方法,其步骤包括:1)数据预处理。使用概率核主成分分析方法(PKPCA)数据降维算法,尽可能减少信息损失和降低计算开销。PKPCA算法相比于PCA算法,既能够将数据的概率分布考虑进去,又能够利用数据的高阶统计信息,以此来得到更好的降维效率。其具体步骤如下所示:1.将原始数据按列组成n行m列矩阵X;2.计算核矩阵,选定高斯径向核函数中的参数,计算核矩阵K,修正核矩阵得到KL;3.求出协方差矩阵C,运用Jacobi迭代算法计算KL的特征值和特征向量;4.将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;5.通过施密特正交化方法单位正交化特征向量得到P;6.Y=PX即为降维到k维后的数据。2)单分类过程。使用N个分类器对预处理数据集进行实验,应用了分层十折交叉验证方法来防止模型过拟合。其中,N取值越大,则最终投票结果的准确度会越高,但会增加后续步骤的处理难度,故优选地,使用五个分类器为宜,该五个分类器包括朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。分层十折交叉验证方法则是在交叉验证的基础上,考虑了数据的类别,使得每一份数据都能够体现原始数据的数据比例。3)分类器筛选过程。采用分类器评估算法(CEA)选择表现最好的M个分类器作为异质学习器。CEA算法综合考量了F值和AUC值,能够完善得对分类器的表现进行评估。其中,2≤M<N,M取值偏小,最终投票结果误差会增大,取值偏大,会增加处理的难度,故优选地,选择三个分类器。4)多分类器集成过程。执行多分类器融合算法(McFA)对结果进行基于概率的加权投票,投票结果作为最后的入侵检测结果。概率指的是分类器对于每个输入向量所对应的输出类别的概率,采用对各个分类器的概率加权公式来得到其权值。与当前已有的相关技术相比,本专利技术具有以下几点优势:1、本专利技术采用了概率核主成分分析方法来降低数据维度,能够在捕获数据高维信息的同时,考虑其概率分布;2、本专利技术采用了基于概率加权投票的双层异质学习器集成学习策略,能够在减少整体分类误差,降低时间消耗。本专利技术的目的是对基于异常的入侵检测方法进行改进和优化,在保证入侵检测准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。附图说明图1是本专利技术的一种基于双层异质集成学习器的入侵检测方法总览图。图2是数据分层十折交叉验证示意图。图3是分类器分层十折交叉验证算法流程图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本实施例公开一种基于双层异质集成学习器的入侵检测方法,本方法的总体思路是通过采用基于概率加权投票的双层异质学习器集成学习策略,在保证入侵检测准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。本方法分为两个部分:第一部分是数据预处理,使用PKPCA数据降维算法,它结合了PPCA和KPCA的优点,能够尽可能地减少信息损失和降低计算开销。第二部分是入侵检测的双层策略,又分为两部分。首先是单分类过程,使用五种不同的分类器来分别检测,包括:朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。此外,应用了分层十折交叉验证方法来防止模型过拟合。其次是多分类器集成过程,使用分类器评估算法(CEA)选择最好的三个分类器作为异质学习器,然后执行多分类器融合算法(McFA)进行再处理。本方法的整体流程图如图1所示,其具体步骤细节描述如下:(1)使用PKPCA数据降维算法。使用概率核主成分分析(PKPCA)方法,本文档来自技高网
...

【技术保护点】
1.一种基于双层异质集成学习器的入侵检测方法,包括以下步骤:/n使用PKPCA数据降维算法对原始数据进行降维处理,得到预处理数据集;/n使用N个分类器对预处理数据集进行处理,使用分层十折交叉验证方法防止过拟合;/n采用分类器评估算法选择表现最好的M个分类器作为异质学习器,其中2≤M<N;/n执行多分类器融合算法对M个分类器的输出结果进行基于概率的加权投票,该概率是指分类器对于每个输入向量所对应的输出类别的概率,采用对M个分类器的概率加权公式来得到其权值,投票结果作为最后的入侵检测结果。/n

【技术特征摘要】
1.一种基于双层异质集成学习器的入侵检测方法,包括以下步骤:
使用PKPCA数据降维算法对原始数据进行降维处理,得到预处理数据集;
使用N个分类器对预处理数据集进行处理,使用分层十折交叉验证方法防止过拟合;
采用分类器评估算法选择表现最好的M个分类器作为异质学习器,其中2≤M<N;
执行多分类器融合算法对M个分类器的输出结果进行基于概率的加权投票,该概率是指分类器对于每个输入向量所对应的输出类别的概率,采用对M个分类器的概率加权公式来得到其权值,投票结果作为最后的入侵检测结果。


2.如权利要求1所述的方法,其特征在于,降维处理的步骤包括:
将原始数据按列组成n行m列矩阵X;
计算核矩阵,选定高斯径向核函数中的参数,计算核矩阵K,修正核矩阵得到KL;
求出协方差矩阵C,运用Jacobi迭代算法计算KL的特征值和特征向量;
将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;
通过施密特正交化方法单位正交化特征向量得到P;
Y=PX即为降维到k维后的数据。


3.如权利要求1所述的方法,其特征在于,使用五个分类器对预处理数据集进行实验。


4.如权利要求3所述的方法,其特征在于,五个分类器包括朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。


5.如权利要求1、3或4所述的方法,其特征在于,选择表现最好的三个分类器作为异质学习器。


6.如...

【专利技术属性】
技术研发人员:凌玥刘玉岭卢志刚李宁姜波朱燕刘俊荣
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1