当前位置: 首页 > 专利查询>福州大学专利>正文

天牛须结合随机森林的网络入侵检测方法技术

技术编号:21899203 阅读:42 留言:0更新日期:2019-08-17 18:32
本发明专利技术涉及天牛须结合随机森林的网络入侵检测方法,基于机器学习处理网络入侵监测问题,可以利用更少的时间训练出高准确率的网络入侵监测模型。当有异常流量通过时,检测系统可以通过流量分析发现问题并产生相应信号。相较于粒子群优化随机森林与果蝇优化随机森林算法,本发明专利技术可以更为高效地完成模型训练与检测。

Network Intrusion Detection Method Based on Random Forest and Longhorn

【技术实现步骤摘要】
天牛须结合随机森林的网络入侵检测方法
本专利技术涉及网络安全
,特别是一种天牛须结合随机森林的网络入侵检测方法。
技术介绍
随着网络更为广泛的普及与应用,网络入侵风险也再度上升,入侵检测研究成为网络安全领域必不可少的一部分。当下,监控网络流量并构建有效的入侵检测系统已有一定的研究成果。传统网络入侵检测技术有基于概率统计模型的入侵检测技术、基于模型推理的入侵检测技术等。基于概率统计模型的入侵检测技术是最传统也是最基础的入侵检测技术,该方法的缺点是用户行为各种各样,无法只通过一个单一数理模型进行预测,用一个模型准确地匹配和准确预测所有用户的行为是不切实际的,导致模型识别准确率很低。Fronimos等人通过对网络流量进行分析,提出了性能标准评估与可用性来对网络流量进行检测,判断流量是否为异常行为。传统的网络入侵检测技术大多是基于数据库匹配来判断是否为网络攻击行为,但是在实际网络环境中,黑客的入侵行为是多种多样的,例如DDoS攻击,传统入侵检测技术就无能为力。同时,传统网络入侵检测在网络流量特征提取方面,大部分是通过人工完成,所以当数据量较大时,传统网络方法难以实现。DengC等人通过对网络安全方面的研究,发现传统的网络入侵检测技术已难以满足当前多种多样的网络入侵形式,而采用机器学习技术则可以有效提高网络入侵检测的准确率。当前针对于网络入侵检测的机器学习算法也不断迭代提高,常用机器学习算法有神经网络、支持向量机、蚁群算法等。神经网络因其自适应、自学习、高速并行计算、联想记忆等特点,契合了大多数领域的研究热点和需求,神经网络也因其上述独特优势可有效回避基于概率统计模型的缺点,加强了识别未知网络攻击行为的能力。HongdeW等人使用卷积神经网络成功做出了一套准确率较高的检测系统,但其检测效率很低。相较于神经网络而言,支持向量机的优点在于可以有效避免“维数灾难”,具有一定的智能性,但其核函数的选取则只能依靠经验选取。NskhP等人使用高斯径向基函数核作为支持向量机的核函数,可以有效提高对于入侵流量的识别准确率,但网络环境较为复杂时,该检测方法则需要消耗较多的的存储空间。蚁群算法在求解问题上,可以与其他算法结合,具有很高的鲁棒性,CuiYL等人将其与模糊支持向量机结合来进行入侵识别测试,虽然其提高了识别的准确率,但降低了识别效率,无法实现大规模实时检测。相比之下,随机森林算法在分类算法中具有训练速度快、预测速度快等优点,这也是网络入侵检测所必须的条件,可以有效保障流量的带宽,达到延迟最小。但是为了达到训练与预测的最佳效果,随机森林中参数必须是恰当的。针对于参数优化问题,现有常见的有果蝇优化算法和粒子群优化算法,但其运算量巨大,需要较长的运算时间。
技术实现思路
有鉴于此,本专利技术的目的是提出一种天牛须结合随机森林的网络入侵检测方法,提高训练网络入侵检测模型与预测的效率,能有效对较大的网络流量进行实时监测。本专利技术采用以下方案实现:一种天牛须结合随机森林的网络入侵检测方法,具体包括以下步骤:步骤S1:首先确定需要优化的随机森林参数:决策树数目和选择分裂属性个数;步骤S2:提供训练集样本,初始化天牛大小、天牛运动步长、天牛方向以及天牛运动步数上限N;步骤S3:用天牛两触须位置坐标初始化随机森林算法,利用预测样本求解相对应的准确率;步骤S4:对比天牛两须对应的准确率,天牛向准确率高的触须一侧运动一步;步骤S5:如果获得的准确率为历史最高,则保存该准确率与对应的触须坐标位置;步骤S6:如果运动到规定步数N,则用最优触须坐标构造随机森林入侵检测模型,进入步骤S7;否则,返回步骤S3;步骤S7:将测试样本输入构造好的入侵检测模型,判断该样本是否为异常流量。进一步地,步骤S2提供的训练集样本中,如果是正常流量标签则为0,如果是异常流量标签则为1,标签值有且仅有以上两种;天牛方向是个单位长度的随机二维向量,两个维度分别用X与Y来表示,该单位向量也可以表示右须位置指向左须位置或左须位置指向右须位置的单位向量,其中坐标值X表示决策树数目,坐标值Y表示选择分裂属性个数;天牛大小、步长、运动步数上限N都是固定大小的标量。进一步地,步骤S3具体为:利用天牛须的坐标X与Y初始化随机森林算法,并用初始化后的随机森林算法对训练集样本进行交叉训练与测试,并将多次交叉验证得到准确率m的算术平均数作为本轮测试的准确率M;由左须初始化随机森林得到的准确率M用ML表示,由右须初始化随机森林得到的准确率M用MR表示;其中准确率m代表标签为0的测试样本被预测为0的个数与标签为1的测试样本被预测为1的个数之和与测试样本总个数的比值,其中测试样本总个数即为标签与0的测试样本与标签为1的测试样本个数之和。进一步地,步骤S4具体为:通过对比左右两须对应随机森林模型预测准确率ML与MR的高低,决定天牛的运动方向;如果天牛左须对应的准确率ML比右须对应的准确率MR高,则天牛根据设定好的步长与天牛方向向左运动一步,否则向右运动一步。进一步地,步骤S5具体为:设定当前天牛运动到第n步,如果当前位置天牛触须对应的两个准确率ML与MR中存在比以往n-1步中准确率M都高的情况,则记录下当前天牛较高的准确率M与对应触须X与Y的坐标值。进一步地,步骤S7具体为:通过向构建好的入侵检测模型中输入未曾使用过的样本进行测试,根据入侵检测模型的输出标签来判断该样本是否为异常流量;如果输出标签为0,则说明输入的是正常流量;如果输出标签为1,则说明输入的是异常流量。较佳的,随着天牛不断运动,将逐步优化参数,提高准确率。基于天牛须搜索优化后的随机森林(BAS_RForest)算法主要包含两个过程:内部交叉验证优化和外部性能评价。在内部参数优化过程中,使用的是五折交叉验证进行评测优化。在外部循环中,使用获得的最优参数对随机森林进行初始化,再用该随机森林对网络入侵检测数据集进行检测,来判断该网络数据属于的攻击类型。由于天牛须算法只需要一个个体即可寻优,因此它的运算量大幅降低。本专利技术提出尝试使用天牛须搜索算法对随机森林进行参数优化,寻求在不影响准确率的情况下更为高效地训练网络防御模型,为网络入侵检测提供了一条新思路。与现有技术相比,本专利技术有以下有益效果:本专利技术基于机器学习处理网络入侵监测问题,可以利用更少的时间训练出高准确率的网络入侵监测模型。当有异常流量通过时,检测系统可以通过流量分析发现问题并产生相应信号。相较于粒子群优化随机森林与果蝇优化随机森林算法,本专利技术可以更为高效地完成模型训练与检测。附图说明图1为本专利技术实施例的原理图。图2为本专利技术实施例的天牛运动具体代码示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。如图1所示,本实施本文档来自技高网
...

【技术保护点】
1.一种天牛须结合随机森林的网络入侵检测方法,其特征在于,包括以下步骤:步骤S1:首先确定需要优化的随机森林参数;步骤S2:提供训练集样本,初始化天牛大小、天牛运动步长、天牛方向以及天牛运动步数上限N;步骤S3:用天牛两触须位置坐标初始化随机森林算法,利用预测样本求解相对应的准确率;步骤S4:对比天牛两须对应的准确率,天牛向准确率高的触须一侧运动一步;步骤S5:如果获得的准确率为历史最高,则保存该准确率与对应的触须坐标位置;步骤S6:如果运动到规定步数N,则用最优触须坐标构造随机森林入侵检测模型,进入步骤S7;否则,返回步骤S3;步骤S7:将测试样本输入构造好的入侵检测模型,判断该样本是否为异常流量。

【技术特征摘要】
1.一种天牛须结合随机森林的网络入侵检测方法,其特征在于,包括以下步骤:步骤S1:首先确定需要优化的随机森林参数;步骤S2:提供训练集样本,初始化天牛大小、天牛运动步长、天牛方向以及天牛运动步数上限N;步骤S3:用天牛两触须位置坐标初始化随机森林算法,利用预测样本求解相对应的准确率;步骤S4:对比天牛两须对应的准确率,天牛向准确率高的触须一侧运动一步;步骤S5:如果获得的准确率为历史最高,则保存该准确率与对应的触须坐标位置;步骤S6:如果运动到规定步数N,则用最优触须坐标构造随机森林入侵检测模型,进入步骤S7;否则,返回步骤S3;步骤S7:将测试样本输入构造好的入侵检测模型,判断该样本是否为异常流量。2.根据权利要求1所述的天牛须结合随机森林的网络入侵检测方法,其特征在于,步骤S2提供的训练集样本中,如果是正常流量标签则为0,如果是异常流量标签则为1;天牛方向是个单位长度的随机二维向量,两个维度分别用X与Y来表示,其中坐标值X表示决策树数目,坐标值Y表示选择分裂属性个数;天牛大小、步长、运动步数上限N都是固定大小的标量。3.根据权利要求1所述的天牛须结合随机森林的网络入侵检测方法,其特征在于,步骤S3具体为:利用天牛须的坐标X与Y初始化随机森林算法,并用初始化后的随机森林算法对训练集样本进行交叉训练与测试,并将多次交叉验证得到准确...

【专利技术属性】
技术研发人员:张栋张合胜林为伟
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1