【技术实现步骤摘要】
一种基于核主成分分析的二次特征提取及恶意攻击识别方法
[0001]本专利技术属于网络安全恶意入侵检测领域,涉及一种基于核主成分分析的二次特征提取及恶意攻击检测方法。
技术介绍
[0002]随着当前互联网技术的飞速发展,网络规模逐渐扩大,人们对互联网的依赖程度与日俱增,但也随之带来了更多的安全问题。针对用户系统中存在的安全漏洞,攻击者通过输入一些有特殊目的的特殊数据来实现对漏洞的利用,进而达到攻击的目的。随着高危漏洞问题的频繁曝光,恶意漏洞利用事件也频繁发生,这给当前的网络环境带来了极大的危害。因此,网络流量中恶意攻击的识别在网络安全保护方面发挥着不可忽视的作用。
[0003]当前恶意攻击识别方法主要通过分类算法来实现,由于数据流特征空间存在相关性和冗余性,特征量大的数据不仅造成了不必要的计算时间和资源开销,还会导致分类精度的下降。因此,对网络流量特征进行特征提取是通过机器学习方法进行恶意攻击分类过程的必要步骤。想要从网络流量的数据包中准确地提取出能够描述恶意攻击行为的特征属性,需要设计一种高效的特征提取方法,将原始数据中存在的冗余信息进行有效剔除并生成一个仅包含“精华”信息的特征表示,从而让得到的特征可供后续的机器学习算法进行分类模型的训练。由于网络流量数据中包含了较多的非线性特征,采用常用的主成分分析(PCA)方法不能很好地对数据进行表征。因此,提出了一种基于核的主成分分析方法—核主成分分析(KPCA)方法,该方法利用核函数将低维线性不可分的原始数据样本映射到线性可分的高维特征空间,并采用主成分分析方法删除 ...
【技术保护点】
【技术特征摘要】
1.一种基于核主成分分析的二次特征提取及恶意攻击检测方法,其特征在于,包括如下步骤:步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;步骤5,根据步骤4所得到的识别结果,得出网络流量恶意攻击检测报告。2.如权利要求1所述方法,其特征在于,所述步骤2的具体实现包括如下步骤:步骤2.1,采用one
‑
hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;步骤2.2,利用z
‑
score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值表示第i条数据的平均值;和平均绝对误差S
k
,S
k
表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;步骤2.3,采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性。3.如权利要求1所述方法,其特征在于,所述步骤3的具体实现包括如下步骤:步骤3.1,将经预处理后的数据样本集表示为大小为n
×
m的流矩阵X
n
×
m
=[x1,x2,...,x
n
],其中n为样本集中样本的个数,m为样本特征的维度,x
i
为样本集的一个列向量;步骤3.2,采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;步骤3.3,求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ,则提取前l个特征值对应的特征向量构成投影矩阵W
KPCA
=[ν1,ν2,...,ν
n
];对于上述所得的投影空间,通过计算Y=W
KPCAT
X...
【专利技术属性】
技术研发人员:蔡赛华,陈锦富,赵玲玲,陈海波,殷上,张翅,
申请(专利权)人:江苏大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。