一种基于网络时空特征的网络攻击检测方法技术

技术编号:35474252 阅读:25 留言:0更新日期:2022-11-05 16:21
本发明专利技术涉及一种基于网络时空特征的网络攻击检测方法,属于网络安全和机器学习领域领域。本发明专利技术利用主算法、一维卷积网络、双向长短时记忆网络和注意力机制提出一种基于时空特征的网络攻击检测方法。通过贪婪主成分方法提取网络流量的强相关特征,通过卷积神经网络和双向长短时记忆网络充分学习网络流量的空间特征和时序特征,本方法能够较好的分离混淆数据,实现稳定的检测模型,本发明专利技术能够自动化提取网络流量特征,自动实现较好的分类效果,而且本发明专利技术能够提高针对网络恶意流量的分类精度。度。度。

【技术实现步骤摘要】
一种基于网络时空特征的网络攻击检测方法


[0001]本专利技术涉及一种基于网络时空特征的网络攻击检测方法,属于网络安全和机器学习领域领域。

技术介绍

[0002]网络已成为支撑电网自动化运营、智能化发展的关键,同时也是整个社会有序运行的保障,然而受网络架构开放性的限制以及其自身难以根治的漏洞隐患,多年来,网络已经成为新形势下隐蔽破坏的温床,不仅导致信息泄露和巨额经济损失,也对国家与民众安全造成极大威胁,提升网络面对网络攻击的检测能力,防范和遏制不断升级的网络恶意行为和攻击是保障电力设施安全运行,维护社会设施有序运转亟需解决的问题。
[0003]网络数据流量从传输形式和传输过程看,流量数据自上而下由报文、数据报、数据包、帧和比特构成,呈现出显著的层次型空间结构特征;从网络流量采集的时间过程看,流量是严格按时间序列汇聚而成的据列,具有鲜明的时序特征。针对目前网络攻击行为检测中主要基于网络行为规则的分析和挖掘,网络结构特征挖掘不充分等问题带来的网络攻击检测精度低、未知网络攻击检测困难等问题,本专利技术通过提取网络流量的空间结构和时序特征,在充分挖掘网络流量非易变性特征的基础上结合卷积神经网络、注意力机制和双向长短时记忆网络在摒弃梯度爆炸和梯度消失等影响检测精度的问题的同时,充分利用网络流量的历史和未来信息特征,有效检测网络攻击行为。

技术实现思路

[0004]本专利技术为解决上述现有技术中存在的问题,提供了一种基于网络时空特征的网络攻击检测方法,本方法能够较好的分离混淆数据,实现稳定的检测模型,本专利技术能够自动化提取网络流量特征,自动实现较好的分类效果,而且本专利技术能够提高针对网络恶意流量的分类精度。
[0005]为实现上述目的,本专利技术提供的技术方案为:一种基于网络时空特征的网络攻击检测方法,至少包括以下步骤:
[0006]1)构建原始流量数据集D
i
:通过部署在网络中的流量采集器持续采集被监测网络的流量数据,将采集到的数据构建成网络原始流量数据集D
i

[0007]2)构建可分析数据集D
p
:根据TCP/IP协议簇的标准对原始流量数据集D
i
进行解码,从原始流量数据集D
i
中提取并构成可供本专利技术分类器使用的可分析数据集D
p

[0008]3)构建网络流量特征数据集D
f
:通过对可分析数据集D
p
中的特征集进行获取并统计,构建用于本方法分类器模型使用的网络流量特征数据集D
f

[0009]4)构建标注数据集D
fl
:参照预设的黑名单和白名单特征库对网络流量特征数据集D
f
中正常流量和攻击流量进行类别标注,构成攻击类型标注数据集D
fl

[0010]5)对攻击类型标注数据集D
fl
中数据进行预处理:首先对攻击类型标注数据集D
fl
中的缺失值进行删除,对攻击类型标注数据集D
fl
中的重复值进行剔除,以保证数据唯一性,
保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理;通过One

Hot编码将归一化处理后的标注类别转换成易于机器学习的二位比特位数据,将D
fl
进一步形成标准化数据集D
s

[0011]6)提取最优特征子集:基于贪心策略的主成分特征提取方法,从标准化数据集D
s
中提取最优特征子集D
o
,从D
o
随机提取80%的样本作为训练集D
o_Tr
,另外20%作为测试集D
o_Ts

[0012]7)构建检测模型:构造CABL网络攻击检测框架,通过优化CABL框架的参数,使损失函数趋于平稳,保存最优权重文件;训练完成后,加载最优权重文件,将测试集输入保存好的CABL框架,对框架检测性能进行评估验证;
[0013]8)检测结果可视化呈现,实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的CABL框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。
[0014]更进一步的,在步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值实现字符型特征到数值型特征的转换;和归一化,即采用min

max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min

max归一化方法如公式(1)所示:
[0015][0016]式中:X为归一化后的特征向量;x为特征向量;x
max
为x特征列中的最小值;x
min
为x特征列中的最大值。
[0017]更进一步的,在步骤5)中的通过One

Hot编码对标注类别数据用二位比特位进行表示。
[0018]更进一步的,在步骤6)中通过基于贪心策略对主成分特征进行提取,按照以下步骤进行操作:
[0019](1)计算特征的平均值:计算公式见式(2),其中表示表2中第t个特征的平均值;
[0020][0021]式中:X
it
表示第i个样本的第t个特征,N表示样本总数,m表示特征总个数;
[0022](2)计算特征的相关系数矩阵R:矩阵R中元素R
ij
表示表2中第i个特征和第j个特征的的相似程度,计算公式见式(3)(4),其中E(X
i
·
X
j
)表示向量X
i
·
X
j
的期望,计算方法见式(5);
[0023][0024][0025][0026]式(4)中:X
i
表示第i个样本,表示第i个样本的期望值,E(X
i
·
X
j
)表示向量X
i
·
X
j
的期望;
[0027]式(5)中,X
it
表示第i个样本的第t个特征,N表示样本总数,m表示特征总个数;
[0028](3)提取低维度协方差矩阵R
k
(k<m);列出矩阵R的每个列向量的2

范数,选择较大的k列构成子矩阵C
k
;2

范数的计算公式见式(6);
[0029][0030](4)通过奇异值分解法求R
k
(k<m)的特征值λ1≥λ2≥...≥λ
k
和对应的特征向量Q
i
=[q
1i
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络时空特征的网络攻击检测方法,其特征在于至少包括以下步骤:1)构建原始流量数据集D
i
:通过部署在网络中的流量采集器持续采集被监测网络的流量数据,将采集到的数据构建成网络原始流量数据集D
i
;2)构建可分析数据集D
p
:根据TCP/IP协议簇的标准对原始流量数据集D
i
进行解码,从原始流量数据集D
i
中提取并构成可供本发明分类器使用的可分析数据集D
p
;3)构建网络流量特征数据集D
f
:通过对可分析数据集D
p
中的特征集进行获取并统计,构建用于本方法分类器模型使用的网络流量特征数据集D
f
;4)构建标注数据集D
fl
:参照预设的黑名单和白名单特征库对网络流量特征数据集D
f
中正常流量和攻击流量进行类别标注,构成攻击类型标注数据集D
fl
;5)对攻击类型标注数据集D
fl
中数据进行预处理:首先对攻击类型标注数据集D
fl
中的缺失值进行删除,对攻击类型标注数据集D
fl
中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理;通过One

Hot编码将归一化处理后的标注类别转换成易于机器学习的二位比特位数据,将D
fl
进一步形成标准化数据集D
s
;6)提取最优特征子集:基于贪心策略的主成分特征提取方法,从标准化数据集D
s
中提取最优特征子集D
o
,从D
o
随机提取80%的样本作为训练集D
o_Tr
,另外20%作为测试集D
o_Ts
;7)构建检测模型:构造CABL网络攻击检测框架,通过优化CABL框架的参数,使损失函数趋于平稳,保存最优权重文件;训练完成后,加载最优权重文件,将测试集输入保存好的CABL框架,对框架检测性能进行评估验证;8)检测结果可视化呈现,实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的CABL框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。2.根据权利要求1所述的基于网络时空特征的网络攻击检测方法,其特征在于:步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值实现字符型特征到数值型特征的转换;和归一化,即采用min

max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min

max归一化方法如公式(1)所示:式中:X为归一化后的特征向量;x为特征向量;x
max
为x特征列中的最小值;x
min
为x特征列中的最大值。3.根据权利要求1所述的基于网络时空特征的网络攻击检测方法,其特征在于:在步骤5)中的通过One

Hot编码对标注类别数据用二位比特位进行表示。4.根据权利要求1所述的基于网络时空特征的网络攻击检测方法,其特征在于:在步骤6)中通过基于贪心策略对主成分特征进行提取,按照以下步骤进行操作:(1)计算特征的平均值:计算公式见式(2),其中表示表2中第t个特征的平均值;
式中:X
it
表示第i个样本的第t个特征,N表示样本总数,m表示特征总个数;(2)计算特征的相关系数矩阵R:矩阵R中元素R
ij
表示表2中第i个特征和第j个特征的的相似程度,计算公式见式(3)(4),其中E(X
i
·
X
j
)表示向量X
i
·
X
j
的期望,计算方法见式(5);的期望,计算方法见式(5);的期望,计算方法见式(5);式(4)中:X
i
表示第i个样本,表示第i个样本的期望值,E(X
i
·
X
j
)表示向量X
i
·
X
j
的期望;式(5)中,X
it
表示第i个样本的第t个特征,N表示样本总数,m表示特征总个数;(3)提取低维度协方差矩阵R
k
(k<m);列出矩阵R的每个列向量的2

范数,选择较大的k列构成子矩阵C
k
;2

范数的计算公式见式(6);(4)通过奇异值分解法求R
k
(k<m)的特征值λ1≥λ2≥...≥λ
k
和对应的特征向量Q
i
=[q
1i
,q
2i
,q
3i
,...,q
ki
]
T
,i=1,2,...,k;(5)确定最优子集维度k:基于贪心策略选择模型学习率、迭代次数、模型隐藏层结点数量最优值,在上述参数保持最优的条件下,观察不同主因子k对应的实验准确率变化趋势,指标极值点对应的k就是最优k值;(6)生成k个...

【专利技术属性】
技术研发人员:谷良安毅禹宁赵嘉吴瑶李伟博李嘉超
申请(专利权)人:国网山西省电力公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1