一种基于互信息与灰狼提升算法的网络入侵检测方法技术

技术编号:35474097 阅读:17 留言:0更新日期:2022-11-05 16:21
本发明专利技术涉及一种基于互信息与灰狼提升算法的网络入侵检测方法,属于网络安全领域。本方法提供的训练阶段通过互信息理论提取训练集中关键特征,并通过互信息大小对提取的特征进行排序。然后将这些特征作为输入加载到LSSVM模型中来训练,并采用GWB算法优化整个模型的权重参数。GWB

【技术实现步骤摘要】
一种基于互信息与灰狼提升算法的网络入侵检测方法


[0001]本专利技术涉及一种基于互信息与灰狼提升算法的网络入侵检测方法,属于网络安全领域。

技术介绍

[0002]目前人、物间相互连接示范出的便利性促生了不断膨化的互联网、物联网连接需求,这导致网络设施中尚未完备或难以根治的系统漏洞等面临严重的网络入侵和攻击风险。传统的根据攻击构建的入侵检测规则越来越难以应对日益复杂和不断变种的网络攻击,尤其是难以防范和检测未知攻击。近年来随着机器学习等技术的发展,基于异常检测的网络攻击检测虽然取得一定程度的进展,但仍然面临攻击特征提取人工依赖性强,未知攻击检测困难、检测模型复杂度高和网络攻击检测精度低等困难,这严重制约了网络入侵检测系统的发展和应用。

技术实现思路

[0003]本专利技术为解决上述现有技术中存在的问题,提供了一种基于互信息与灰狼提升算法的网络入侵检测方法,本方法能够在模型训练阶段大大缩短模型训练的时间,降低模型训练消耗和时间成本,而且本方法能够更好的实现网络流量前相关特征的选择,提升网络入侵行为检测的精度和模型收敛的速度。
[0004]为实现上述目的,本专利技术提供的技术方案为:一种基于互信息与灰狼提升算法的网络入侵检测方法,按以下步骤进行处理:
[0005]1)构建原始流量数据集D
ys
:通过数据采集器采集目标网络的流量数据,并根据流量数据构建网络原始流量数据集D
ys

[0006]2)构建可分析数据集D
parse
:根据TCP/IP协议簇的标准对原始流量数据集D
ys
进行解码,从原始流量数据集D
ys
中提取并构成可分析数据集D
parse

[0007]3)构建网络流量特征数据集D
f
:通过流量统计计算获取可分析数据集D
parse
中的特征集,构建用于网络入侵检测模型使用的网络流量特征数据集D
f

[0008]4)构建标注数据集D
fl
:参照现有的黑名单和白名单特征库对D
f
中的正常流量和攻击流量进行类别标注,构成可供网络入侵检测模型训练使用的标注数据集D
fl

[0009]5)对标注数据集D
fl
中数据进行预处理:首先对标注数据集D
fl
中的缺失值进行删除,对标注数据集D
fl
中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理,将标注数据集D
fl
进一步形成标准化数据集D
s

[0010]6)提取最优特征子集:计算标准化数据集D
s
中的每一列特征X
i
与标注标签集合Y之间的互信息值,将得到的特征X
i
按照互信息值大小进行降序排序,剔除标准化数据集D
s
中互信息值<0.2的特征维,保留标准化数据集D
s
中互信息值≥0.2的特征维构建最优特征子集D
s

,然后从D
s

随机提取80%的样本作为用于训练入侵检测模型的训练集D
s


Tr
,将剩余
20%的样本作为测试入侵检测模型的测试集D
s


Ts

[0011]7)构建入侵检测模型:构造最小二乘支持向量机网络入侵检测模型,通过将训练集D
s


Tr
输入至最小二乘支持向量机网络入侵检测模型中进行训练,并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数,提升模型检测率;
[0012]8)评估模型检测性能:将步骤7)中的模型训练得到的最优参数进行保存,训练完成后,设置最优参数,结合训练好的模型,将测试集D
s


Ts
输入保存好的入侵检测模型框架,对模型检测性能进行评估验证;
[0013]9)检测结果可视化呈现:实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的入侵检测模型框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。
[0014]更进一步的,在步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值对实现字符型特征到数值型特征的转换;和归一化,即采用min

max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min

max归一化方法如公式(1)所示:
[0015][0016]式中:X
i
为标准化数据集D
s
第i列特征归一化后的数值;x
i
为采集的标注数据集D
fl
第i列特征原始数值;x
i_max
为标注数据集D
fl
第i列特征所有样本中的最大值,x
i_min
为标注数据集D
fl
第i列特征所有样本中的最小值。
[0017]更进一步的,在步骤6)中提取最优特征子集时,按照以下步骤计算每列特征与标志的互信息值:
[0018](1)利用式(2)、(3)分别计算特征X
i
、标注标签集合Y的互信息熵;
[0019][0020]式(2)中:X
i
为归一化后的第i列特征;X为第i列特征所有的样本构成的集合;p(X
i
)表示第i列特征X
i
的边缘分布;
[0021][0022]式(3)中:Y为所有标注标签值构成的集合;y表示标注标签;p(y)表示标注标签y的边缘分布;
[0023](2)利用式(4)计算各列特征X
i
与标注标签集合Y之间的交叉熵;
[0024][0025]式(4)中:p(X
i
,y)表示特征X
i
和标注标签y之间的联合分布;
[0026](3)在特征、标签的信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征X
i
与标注标签集合Y的互信息值;
[0027][0028]式中:H(X
i
|Y)表示特征X
i
与标注标签集合Y之间的条件熵。
[0029]更进一步的,在步骤7)中检测模型构建的步骤包括:构建学习模型,采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数,高斯径向基核函数的计算如式(6)所示:
[0030][0031本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于按以下步骤进行处理:1)构建原始流量数据集D
ys
:通过数据采集器采集目标网络的流量数据,并根据流量数据构建网络原始流量数据集D
ys
;2)构建可分析数据集D
parse
:根据TCP/IP协议簇的标准对原始流量数据集D
ys
进行解码,从原始流量数据集D
ys
中提取并构成可分析数据集D
parse
;3)构建网络流量特征数据集D
f
:通过流量统计计算获取可分析数据集D
parse
中的特征集,构建用于网络入侵检测模型使用的网络流量特征数据集D
f
;4)构建标注数据集D
fl
:参照现有的黑名单和白名单特征库对D
f
中的正常流量和攻击流量进行类别标注,构成可供网络入侵检测模型训练使用的标注数据集D
fl
;5)对标注数据集D
fl
中数据进行预处理:首先对标注数据集D
fl
中的缺失值进行删除,对标注数据集D
fl
中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理,将标注数据集D
fl
进一步形成标准化数据集D
s
;6)提取最优特征子集:计算标准化数据集D
s
中的每一列特征X
i
与标注标签集合Y之间的互信息值,将得到的特征X
i
按照互信息值大小进行降序排序,剔除标准化数据集D
s
中互信息值<0.2的特征维,保留标准化数据集D
s
中互信息值≥0.2的特征维构建最优特征子集D
s

,然后从D
s

随机提取80%的样本作为用于训练入侵检测模型的训练集D
s


Tr
,将剩余20%的样本作为测试入侵检测模型的测试集D
s


Ts
;7)构建入侵检测模型:构造最小二乘支持向量机网络入侵检测模型,通过将训练集D
s


Tr
输入至最小二乘支持向量机网络入侵检测模型中进行训练,并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数,提升模型检测率;8)评估模型检测性能:将步骤7)中的模型训练得到的最优参数进行保存,训练完成后,设置最优参数,结合训练好的模型,将测试集D
s


Ts
输入保存好的入侵检测模型框架,对模型检测性能进行评估验证;9)检测结果可视化呈现:实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的入侵检测模型框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。2.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于:步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值对实现字符型特征到数值型特征的转换;和归一化,即采用min

max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min

max归一化方法如公式(1)所示:式中:X
i
为标准化数据集D
s
第i列特征归一化后的数值;x
i
为采集的标注数据集D
fl
第i列特征原始数值;x
i_max
为标注数据集D
fl
第i列特征所有样本中的最大值,x
i_min
为标注数据集D
fl
第i列特征所有样本中的最小值。3.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其特征在
于:步骤6)中提取最优特征子集时,按照以下步骤计算每列特征与标志的互信息值:(1)利用式(2)、(3)分别计算特征X
i
、标注标签集合Y的互信息熵;式(2)中:X
i
为归一化后的第i列特征;X为第i列特征所有的样本构成的集合;p(X
i
)表示第i列特征X
i
的边缘分布;式(3)中:Y为所有标注标签值构成的集合;y表示标注标签;p(y)表示标注标签y的边缘分布;(2)利用式(4)计算各列特征X
i
与标注标签集合Y之间的交叉熵;式(4)中:p(X
i
,y)表示特征X
i
和标注标签y之间的联合分布;(3)在特征、标签的信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征X
i
与标注标签集合Y的互信息值;式中:H(X
i
|Y)表示特征X
i
与标注标签集合Y之间的条件熵。4.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其...

【专利技术属性】
技术研发人员:狄婷谷良安毅禹宁周鑫赵嘉吴瑶李伟博孙海川
申请(专利权)人:国网山西省电力公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1