一种基于近邻样本万有引力的网络入侵检测方法技术

技术编号:22330769 阅读:45 留言:0更新日期:2019-10-19 12:24
本发明专利技术公开了一种面向不平衡网络入侵检测的基于熵和万有引力的动态半径近邻分类器,包括通过利用信息熵和样本不平衡率,定义不同分布的样本具有不同的质量;通过利用一范数距离动态的计算每一个测试样本的近邻候选集半径,得到测试样本的近邻候选集;通过计算测试样本的候选集中正、负类样本对测试样本的万有引力,将测试样本分为万有引力较大的那一类。本发明专利技术弥补了现有的近邻分类器忽视不平衡问题本身的特性的缺陷,能很好地用于不平衡数据分类,且分类器算法复杂度较低。

【技术实现步骤摘要】
一种基于近邻样本万有引力的网络入侵检测方法
本专利技术涉及一种基于近邻样本万有引力的网络入侵检测方法,属于数据分类

技术介绍
随着基于计算机网络的服务和网络敏感信息的迅猛发展,网络安全问题越来越受到人们的重视。计算机网络安全在现代计算机系统中起着重要的战略作用,而网络入侵检测系统已成为网络安全基础设施的重要组成部分。网络入侵检测是指用于隔离针对计算机和网络的攻击的一组技术,即网络入侵检测系统用于检测网络中的敌对活动。除了检测攻击之外,这样的系统还必须防止其恶意影响,或协助人类在系统或网络管理员中扮演预防角色。随着互联网的进一步发展,尽管已有很多复杂且高效的网络入侵检测系统,但由于网络入侵攻击利用了系统和应用软件中始终包含的未知弱点或漏洞,网络安全是很难保证的。目前现有的网络攻击检测方法可分为三类:1)基于规则的检测方法,该方法高度依赖现有规则数据库,无法及时更新以应对新的网络攻击手段,因此很容易造成较大的损失;2)基于网络流特征分布的检测方法,由于这种检测方式具有很强的随机性,使得一部分网络入侵手段能够巧妙避开;3)基于机器学习的入侵检测方法,该方法利用机器学习中的一些算法对网络数据进行预测,从而有效地及时应对一些网络攻击。常用机器学习算法如支持向量机,随机森林,神经网络等。基于机器学习网络入侵检测方法能够较有效应对未知的网络攻击,然而,从高度不平衡的网络入侵数据集中学习出高效的模型是一个不可忽视的内在问题,传统的机器学习方法难以高效地解决不平衡的网络入侵问题。在不平衡数据中,更受人们关注的一类问题的样本数量往往少于其他类,且由于少数类的特殊性和较高的研究价值,使得少数类更值得重视。然而,传统模型分类超平面的设计通常是为了提高总体分类精度,因此少数类样本的重要性被忽视。研究发现,用传统的分类算法处理不平衡数据时,不平衡的数据常常导致决策边界的偏差。本专利技术通过构造近邻学习算法来解决不平衡的网络入侵检测问题。KNN是一种简单而有效的经典近邻方法,然而,其准则函数和选择参数K的过程对于不平衡数据并不适用。首先,KNN的预测结果可能被测试样本周围的多数类所误导;其次,参数K是难以调节的,因为它具有很强的数据依赖性。通过引入万有引力的思想,近邻模型能够较好地用于不平衡数据分类。在基于万有引力的算法中,每个样本都被看作是数据空间中的一个对象,在任何两个数据对象之间都存在一种称为数据万有引力的力,这种模型通过比较不同类样本间的万有引力进行分类。本专利技术首次将万有引力的分类思想引入不平衡网络入侵检测的模型设计中,且所专利技术的模型能够高效地解决不平衡网络入侵数据。
技术实现思路
为了提高基于万有引力的近邻模型对不平衡的网络入侵数据的分类性能,本专利技术提出了一种基于近邻样本万有引力的网络入侵检测模型。所述模型利用一范数计算样本间的距离。同时,利用信息熵的特性,所述模型根据样本的分布即类的确定性赋予不同样本不同的质量权重。此外,为每一个测试样本动态地计算万有引力半径,使得分布在训练样本中不同位置的测试样本能够得到不同的万有引力半径,从而使分类结果更加合理准确。本专利技术解决其技术问题所采用的技术方案:首先根据具体问题描述,将采集到的样本转化成可供该系统处理的向量模型,并且对离散特征进行one-hot编码;其次,根据输入训练样本计算不平衡率和每个训练样本的信息熵,即得到了每个训练样本的质量权重;在测试过程中,利用一范数计算测试数据到每个训练数据的距离,从而计算该测试样本的候选集半径和所对应的候选集。最后,根据候选集中每类样本对测试样本的万有引力的大小对测试样本进行分类,其中万有引力的计算公式为本专利技术提出的修正的数据万有引力公式。本专利技术解决其技术问题所采用的技术方案还可以进一步细化。所述技术方案中第二阶段中为了得到训练样本的质量权重,需要计算样本的信息熵,本专利技术通过每个样本在一定范围内近邻样本的类别概率来计算该样本的信息熵。另外,所述测试过程中采用修正的数据万有引力公式计算测试样本受到的万有引力,其中在修正的万有引力公式中,本专利技术采用距离的4次幂作为测试样本到每个候选样本的距离的权重,但对于不同数据集,所述权重可根据交叉验证的实验结果进行调整。本专利技术有益的效果是:通过设计一个基于近邻样本万有引力的网络入侵检测模型;将近邻算法推广至不平衡网络入侵检测问题。所述通过考虑每个测试样本在所有训练样本中的实际分布,根据每个测试样本与所有训练样本之间的一范数距离动态地计算每个测试样本对应的万有引力半径,从而有效地解决不平衡网络入侵检测问题。附图说明图1为本专利技术应用于不平衡数据分类问题的系统框架图;图2是本专利技术在训练步骤的详细描述;图3是本专利技术在测试步骤的流程图;具体实施方式下面结合附图和实施例对本专利技术作进一步介绍:本专利技术的方法共分三个模块。第一部分:输入模块输入数据为现实的不平衡网络入侵样本的数据转化,生成向量形式的数据集便于后续模块进行处理。对于一个输入样本i,其向量表示向量xi,向量的维度d,如下所示:xi=[xi,1,xi,2,...,xi,d]∈Rd该系统的输入中包含正类与负类样本的集合。对于正类样本集合表示为其中npos为正类样本的数量。负类样本集合表示为其中nneg是负类样本数量。第二部分:训练模块在这个模块中,对不平衡数据的训练样本集进行学习,计算样本不平衡率和信息熵,得到训练样本的质量。主要步骤如下:1)计算训练样本的不平衡率:2)计算训练样本的信息熵半径r信息熵用来描述信息源的确定性,信息熵越大表明信息越不确定。当样本处于分类边界时,通常很难对其进行正确分类,显然,边界样本的类确定性是较低的。在不平衡问题中,决策边界附近的样本往往受到更多的关注,即靠近决策边界的样本的信息熵越大,就越需要更多关注。对于训练集Xtrain中的训练样本x,首先得到用于计算信息熵的候选集的半径r。r的定义如下:其中r是训练集的平均向量到每个训练样本的距离的最大值,r的设计是为避免在半径为r的范围内选择到的样本数为0的情况,也尽可能合理地利用训练样本的全局信息和局部信息。函数d(.)被定义为两个样本之间的距离,本专利技术中距离的计算采用L1-范数,并且可以写成:其中m是样本x的特征维数。3)在计算了信息熵计算半径r之后,选择的样本xi的信息熵候选集可以确定为:其中信息熵候选集中总共存在nall个样本,其中正类和负类样本的数量分别为n+和n-。可以得到xi属于正、负类的概率如下:从而,xi的信息熵计算如下:E(xi)=-pi+ln(pi+)-pi-ln(pi-)其中ln(.)是自然对数函数。第三部分:测试模块在这个模块中,主要步骤如下:1)计算测试样本的近邻候选集半径R本专利技术考虑测试样本在所有训练样本中的实际分布,动态地计算万有引力的候选集半径R,以选择测试样本的近邻候选样本,只有这些候选样本参与测试样本的万有引力的计算。半径R可以计算如下:其中npos和nneg分别对应于所有训练样本集中正、负类样本的数目。指的是测试样本与C类训练样本中的第i个样本的距离,可以如下得到:其中y是测试样本,d(.)为样本y和之间的距离。计算得到测试样本的候选集R后,从训练样本中由半径R选出的候选集为:Candi|Candi∈Xtrain,d(Candi,Xtest本文档来自技高网
...

【技术保护点】
1.一种基于近邻样本万有引力的网络入侵检测方法,其特征在于,所述网络入侵检测方法包括以下步骤:1)预处理第一步:通过网络数据采集工具构建网络攻击特征,将采集的样本集特征转为适于后续处理的数据矩阵,并对所有离散特征进行one‑hot的转换;2)训练第一步:对一个包括正、负类样本的不平衡网络入侵数据的训练样本集进行学习,得到每个训练样本的质量;3)测试第一步:通过利用一范数距离动态的计算测试样本到所有训练样本的距离,得到测试样本的近邻候选集半径R;所述一范数距离为:

【技术特征摘要】
1.一种基于近邻样本万有引力的网络入侵检测方法,其特征在于,所述网络入侵检测方法包括以下步骤:1)预处理第一步:通过网络数据采集工具构建网络攻击特征,将采集的样本集特征转为适于后续处理的数据矩阵,并对所有离散特征进行one-hot的转换;2)训练第一步:对一个包括正、负类样本的不平衡网络入侵数据的训练样本集进行学习,得到每个训练样本的质量;3)测试第一步:通过利用一范数距离动态的计算测试样本到所有训练样本的距离,得到测试样本的近邻候选集半径R;所述一范数距离为:y,x为两个样本,d(·)表示样本y和x之间的距离,m是样本y和x的特征维度,yi和xi分别是样本y和x在第i个特征维度上的值。4)测试第二步:通过前述测试样本的近邻候选集半径R选择到测试样本的距离小于所述近邻候选集半径R的样本,得到测试样本的近邻候选集;Candi|Candi∈Xtrain,d(Candi,y)<R5)测试第三步:通过计算测试样本的近邻候选集中正、负类样本对测试样本的万有引力,将测试样本分为万有引力较大的那一类。2.根据权利要求1所述的方法,其特征在于,所述每个训练样本的质量的计算过程包括几下步骤:通过训练样本中正、负类样本的比值,得到样本不平衡率IR,其中IR为所述正负类样本的不平衡率,表示正、负类样本与正类样本的比值。nneg为负类样本的个数,n...

【专利技术属性】
技术研发人员:王喆迟子秋李艳琼李冬冬杜文莉杨海
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1