当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于核主成分分析的二次特征提取及恶意攻击识别方法技术

技术编号:30284960 阅读:57 留言:0更新日期:2021-10-09 21:55
本发明专利技术提供了一种基于核主成分分析的二次特征提取及恶意攻击识别方法。包括:步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;步骤5,根据步骤4所得到的识别结果,得到网络流量恶意攻击检测报告。本发明专利技术做到了同时考虑数据在均值和方差两个方面的特性,进而对数据特征进行更加全面的分析。更加全面的分析。更加全面的分析。

【技术实现步骤摘要】
一种基于核主成分分析的二次特征提取及恶意攻击识别方法


[0001]本专利技术属于网络安全恶意入侵检测领域,涉及一种基于核主成分分析的二次特征提取及恶意攻击检测方法。

技术介绍

[0002]随着当前互联网技术的飞速发展,网络规模逐渐扩大,人们对互联网的依赖程度与日俱增,但也随之带来了更多的安全问题。针对用户系统中存在的安全漏洞,攻击者通过输入一些有特殊目的的特殊数据来实现对漏洞的利用,进而达到攻击的目的。随着高危漏洞问题的频繁曝光,恶意漏洞利用事件也频繁发生,这给当前的网络环境带来了极大的危害。因此,网络流量中恶意攻击的识别在网络安全保护方面发挥着不可忽视的作用。
[0003]当前恶意攻击识别方法主要通过分类算法来实现,由于数据流特征空间存在相关性和冗余性,特征量大的数据不仅造成了不必要的计算时间和资源开销,还会导致分类精度的下降。因此,对网络流量特征进行特征提取是通过机器学习方法进行恶意攻击分类过程的必要步骤。想要从网络流量的数据包中准确地提取出能够描述恶意攻击行为的特征属性,需要设计一种高效的特征提取方法,将原始数据中存在的冗余信息进行有效剔除并生成一个仅包含“精华”信息的特征表示,从而让得到的特征可供后续的机器学习算法进行分类模型的训练。由于网络流量数据中包含了较多的非线性特征,采用常用的主成分分析(PCA)方法不能很好地对数据进行表征。因此,提出了一种基于核的主成分分析方法—核主成分分析(KPCA)方法,该方法利用核函数将低维线性不可分的原始数据样本映射到线性可分的高维特征空间,并采用主成分分析方法删除冗余特征和不相关特征,这样就保证了对线性不可分数据的处理效果。
[0004]然而,由于PCA方法只考虑了数据在方差方面的特性,无法顾及特征在均值方面的特性,这就导致对数据的分析不够全面;同时,由于PCA方法缺乏类别信息,因此会导致降维后的数据虽然信息损失降到最低但可能会使分类过程变得更加困难。基于此,本专利技术提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法,在基于KPCA提取的特征集上叠加线性判别分析方法进行二次特征提取,在保证对网络流量中非线性数据的处理效果的同时,弥补了主成分分析方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面的特性的问题,做到了同时考虑数据在均值和方差两个方面的特性,进而更有效地检测恶意攻击行为。大量的对比实验证明本研究提出的特征提取方法能够达到更好的特征提取效果,所提取的特征能够使分类器达到更高的分类性能,恶意攻击检测成功率更高。

技术实现思路

[0005]基于现有技术中的KPCA方法是基于样本点投影具有最大方差的原则进行投影,而没有考虑到样本会依据均值进行分类的情况,且KPCA作为一种无监督学习方法忽略了对类别先验知识的利用,从而导致对恶意攻击进行分类识别时性能无法达到最优。基于此,本专利技术提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法用以解决上述存在
的问题。
[0006]本专利技术提供了一种基于核主成分分析的二次特征提取及恶意攻击检测方法,包括如下步骤:
[0007]步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;
[0008]步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;
[0009]步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;
[0010]步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;
[0011]步骤5,根据步骤4所得到的识别结果,得出网络流量恶意攻击检测报告。
[0012]进一步,所述步骤2的具体实现包括如下步骤:
[0013]步骤2.1,采用one

hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;
[0014]步骤2.2,利用z

score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值理,首先计算样本集各属性的平均值表示第i条数据的平均值;和平均绝对误差S
k
,S
k
表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;
[0015]步骤2.3,采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性。
[0016]进一步,所述步骤3的具体实现包括如下步骤:
[0017]步骤3.1,将经预处理后的数据样本集表示为大小为n
×
m的流矩阵X
n
×
m
=[x1,x2,...,x
n
],其中n为样本集中样本的个数,m为样本特征的维度,x
i
为样本集的一个列向量;
[0018]步骤3.2,采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;
[0019]步骤3.3,求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ,则提取前l个特征值对应的特征向量构成投影矩阵W
KPCA
=[ν1,ν2,...,ν
n
];对于上述所得的投影空间,通过计算Y=W
KPCAT
X得到原始网络流量样本集X在特征空间W
KPCA
中的投影;
[0020]步骤3.4,采用线性判别分析方法来计算步骤3.3所得特征值Y的类内离散度矩阵S
ω
与类间离散度矩阵S
b
,求解矩阵S
ω
‑1S
b
的特征值与特征向量并对特征值按照降序排序,取对应的前p个特征向量构成投影矩阵W
LDA
=[η1,η2,...,η
p
],计算Z=W
LDAT
Y求得特征集Y在W
LDA
特征空间中的映射,将映射的结果视为对原始数据样本进行特征提取的结果。
[0021]进一步,所述步骤4的具体实现包括如下步骤:
[0022]步骤4.1,采用步骤2和步骤3对抽样所得训练集进行特征提取,得到网络流量的样本属性子集;
[0023]步骤4.2,采用支持向量机算法对前述步骤所得的特征向量组进行分类器的训练,
利用上述所得特征属性子集作为SVM算法的输入,并选择径向基函数作为SVM算法的核函数,后续对参数不断进行调整,使得训练出的分类器保持较优的分类效果;
[0024]步骤4.3,利用构造好的多分类器实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于核主成分分析的二次特征提取及恶意攻击检测方法,其特征在于,包括如下步骤:步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;步骤5,根据步骤4所得到的识别结果,得出网络流量恶意攻击检测报告。2.如权利要求1所述方法,其特征在于,所述步骤2的具体实现包括如下步骤:步骤2.1,采用one

hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;步骤2.2,利用z

score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值表示第i条数据的平均值;和平均绝对误差S
k
,S
k
表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;步骤2.3,采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性。3.如权利要求1所述方法,其特征在于,所述步骤3的具体实现包括如下步骤:步骤3.1,将经预处理后的数据样本集表示为大小为n
×
m的流矩阵X
n
×
m
=[x1,x2,...,x
n
],其中n为样本集中样本的个数,m为样本特征的维度,x
i
为样本集的一个列向量;步骤3.2,采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;步骤3.3,求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ,则提取前l个特征值对应的特征向量构成投影矩阵W
KPCA
=[ν1,ν2,...,ν
n
];对于上述所得的投影空间,通过计算Y=W
KPCAT
X...

【专利技术属性】
技术研发人员:蔡赛华陈锦富赵玲玲陈海波殷上张翅
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1