一种基于Bagging算法的复合式入侵检测方法技术

技术编号:6978074 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于Bagging算法的复合式入侵检测方法,包括以下步骤:建立初始历史数据样本集S;将样本集S构造成Bagging算法中弱学习算法可读的数据集Ssample,选定球向量机作为弱学习算法;循环调用弱学习算法,完成数据集Ssample的训练,得到强学习机H;将当前待测的数据样本输入到作为复合式入侵检测模型的强学习机H中,强学习机H利用各代弱学习机hi做初步入侵检测,并以投票的方式判定当前待测数据样本的入侵检测结果,得票数多的入侵检测结果为强学习机H最终入侵检测结果,采用本发明专利技术的方法对目标网络进行入侵检测,即克服了原有入侵检测技术中普遍存在的检测精度低、泛化能力差等缺陷,大大降低了误报率和漏报率。

【技术实现步骤摘要】

本专利技术涉及一种网络信息安全
的检测方法,具体讲涉及一种基于 Bagging算法的复合式入侵检测方法。
技术介绍
随着网络入侵和攻击行为正朝着分布化、规模化、复杂化、间接化等趋势发展,当前对安全产品技术提出更高的要求,急需一种高效的网络安全告警技术来提升安全产品的性能。入侵检测是对入侵行为的检测,入侵检测系统通过收集网络及计算机系统内所有关键节点的信息,检查网络或系统中是否存在违反安全策略行为及被攻击迹象。入侵检测的数据来源是各种网络安全设备的日志,如防火墙、IDS、IPS等,这些设备会实时的记录每个时间监测点目标网络的活动情况以便分析目标网络的运行情况。从理论来源分析入侵检测技术属于模式识别中分类问题,将各种网络攻击抽象成一个已知类别,将网络安全设备的历史运行日志做为训练样本集使用人工智能算法通过训练学习得到多分类模型,即入侵检测系统。目前入侵检测的解决方案,主要是利用神经网络、支持向量机等单学习机方法,而这些单分类器方法均为不稳定分类算法,所谓不稳定分类算法就是指训练样本集发生一个微小的变化,分类器的分类结果就会产生巨大变化。虽然经多年研究,通过各种群智能优化算法已使单分类器的稳定性有所提高,但单学习机的方法误差相对较大、运算速度偏慢、入侵检测系统的泛化能力低。泛化能力是指,若某个模型只针对某类问题具有较好的效果,对于其他类别问题性能较弱,则其泛化能力有限;反之,某个模型对于多个类别问题均有较好性能,则其泛化能力较好。当前主要有两大类入侵检测现有技术,它们分别是基于误用技术和基于异常技术。基于误用技术是指,假设所有可能出现的网络攻击类别(“DoS”、“信息收集类攻击”、 “信息欺骗类攻击”、“禾_类攻击”)均已知,将待测记录来匹配这些已知网络攻击类别。基于误用技术的优势在于误报率较低、对于已知类别的网络攻击判断迅速,而缺点是对于未知种类网络攻击的辩识率低下。基于异常技术是指,事先根据规则定义好“正常”网络行为的特征,将待测记录来匹配该特征,凡是不匹配的网络行为均认定为网络攻击。基于异常技术的优势在于漏报率较低、对于未知类别网络攻击的判断迅速,缺点是误报率偏高。“漏报”是指将本属攻击的网络行为认定为正常,“误报”是指将本属正常的网络行为认定为攻击。由此可见,入侵检测系统的核心性能要求是准确性和实时性,目前基于单学习机的解决方案在这两方面均有不足。
技术实现思路
针对上述现有技术基于单分类器的入侵检技术、仅仅依靠误用技术或异常技术的入侵检测实施方案中普遍存在的入侵检测精度低、实时型差、漏报率和误报率偏高、泛化能力差等缺陷,经长期研究本申请人提供了,Bagging算法的最大优势在于通过对弱学习算法的反复迭代训练从而得到高精度的分类模型,并且为了降低误报率和漏报率,该方法设计了复合式入侵检测模型,即先进行基于误用的入侵检测,再进行基于异常的入侵检测;为了改善入侵检测系统的实时性,本专利技术分别在特征提取阶段和Bagging算法的弱学习算法选择上使用核主成分分析和球向量机,从而使得在尽量不降低精度的情况下提高入侵检测系统的速度。本专利技术的目的是采用下述技术方案实现的,其改进之处在于,所述方法包括以下步骤A、建立初始历史数据样本集S ;B、将所述初始历史数据样本集S构造成Bagging算法中弱学习算法可读的数据集 &ample,选定球向量机作为所述弱学习算法;C、循环调用所述Bagging算法中的弱学习算法,完成所述数据集Iample的训练,得到强学习机H;D、将当前待测的数据样本输入到作为复合式入侵检测模型的所述强学习机H中, 所述强学习机H利用各代弱学习机Iii做初步入侵检测,并以投票的方式判定当前待测数据样本的入侵检测结果,得票数多的入侵检测结果为强学习机H最终入侵检测结果。本专利技术提供的一种优选的技术方案是所述步骤A包括以下步骤所述步骤A包括以下步骤Al、数据采集分析历史各个时间监测点的网络安全设备日志,统计所述日志中所有属性对应的数据;A2、特征提取对所述日志中所有属性进行核主成分分析,得到做为复合式入侵检测的特征属性&,X2,-,Xn;A3、统计所述历史各个时间监测点日志,将A2中所述特征属性Xl,X2,…,、对应的数据和每个时间监测点的入侵检测结果构成所述初始历史数据样本集S。本专利技术提供的第二优选的技术方案是所述步骤B包括以下步骤Bi、数据归一化将所述初始历史数据样本集S中特征属性X1,&,-,Xn的数值按照各自的取值范围全部归一化到W,l]区间;B2、数值化处理将入侵检测所有可能出现的结果状态设定为数值型类别标号;B3、将所述初始历史数据样本集S中特征属性Xl,x2,…,Xn的数值做为复合式入侵检测模型的输入向量;将所述初始历史数据样本集S中的入侵检测结果做为复合式入侵检测模型的输出向量;所述数据集^ample由所述复合式入侵检测模型的输入向量和输出向量构成。本专利技术提供的第三优选的技术方案是所述步骤C包括以下步骤Cl、对集成学习Bagging算法初始化,设定所述Bagging算法最大迭代次数t,选用球向量机做为弱学习算法,并设定所述球向量机的训练参数;C2、以指定概率从所述数据集^ample中有放回地选取样训练本子集Si, i e ,作为弱学习算法的训练样本子集Si ;C3、将所述训练样本子集Si输入到弱学习算法训练,得到对应的弱学习机比;C4、检查所述集成学习Bagging算法是否达到算法的最大迭代次数t,若已达到,则执行步骤C5 ;否则,返回步骤C2 ; C5、输出弱学习机序列,即强学习机H。本专利技术提供的第四优选的技术方案是所述步骤D中复合式入侵检测步骤为对于待测数据利用强学习机H,先进行基于误用技术的入侵检测,得到发生“已知种类网络攻击”或者“正常”的报告,再对报告“正常”的数据进行基于异常技术的入侵检测,以检验其是否隐藏未知网络攻击,最后结合两次报告结果得到最终入侵检测结果。本专利技术提供的第五优选的技术方案是所述步骤A2中核主成分分析的实施步骤如下A21、设所述日志中共有k个属性,将特征属性权利要求1.,其特征在于,所述方法包括以下步骤A、建立初始历史数据样本集S;B、将所述初始历史数据样本集S构造成Bagging算法中弱学习算法可读的数据集 &ample,选定球向量机作为所述弱学习算法;C、循环调用所述Bagging算法中的弱学习算法,完成所述数据集^ample的训练,得到强学习机H;D、将当前待测的数据样本输入到作为复合式入侵检测模型的所述强学习机H中,所述强学习机H利用各代弱学习机Iii做初步入侵检测,并以投票的方式判定当前待测数据样本的入侵检测结果,得票数多的入侵检测结果为强学习机H最终入侵检测结果。2.如权利要求1所述的基于Bagging算法的复合式入侵检测方法,其特征在于,所述步骤A包括以下步骤Al、数据采集分析历史各个时间监测点的网络安全设备日志,统计所述日志中所有属性对应的数据;A2、特征提取对所述日志中所有属性进行核主成分分析,得到做为复合式入侵检测的特征属性 X1, χ2,···, Xn ;A3、统计所述历史各个时间监测点日志,将A2中所述特征属性Xl,x2,…,、对应的数据和每个时间监测点的入侵检测结果构成所述初始历史数据样本本文档来自技高网
...

【技术保护点】
1.一种基于Bagging算法的复合式入侵检测方法,其特征在于,所述方法包括以下步骤:A、建立初始历史数据样本集S;B、将所述初始历史数据样本集S构造成Bagging算法中弱学习算法可读的数据集Ssample,选定球向量机作为所述弱学习算法;C、循环调用所述Bagging算法中的弱学习算法,完成所述数据集Ssample的训练,得到强学习机H;D、将当前待测的数据样本输入到作为复合式入侵检测模型的所述强学习机H中,所述强学习机H利用各代弱学习机hi做初步入侵检测,并以投票的方式判定当前待测数据样本的入侵检测结果,得票数多的入侵检测结果为强学习机H最终入侵检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:高昆仑王宇飞
申请(专利权)人:中国电力科学研究院
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1