一种数据重采样的处理方法技术

技术编号:37314258 阅读:31 留言:0更新日期:2023-04-21 22:56
本发明专利技术公开了一种数据重采样的处理方法,包括对不平衡数据集进行过采样得到平衡数据集;再对得到的平衡数据集进行数据清洗,删除平衡数据集中因采样增加噪声数据。本发明专利技术的优点在于:数据集提供多样性的同时消除一部分的边界噪声,使得样本数据更多进而帮助提高模型的泛化能力,降低过拟合的风险,增强模型的健壮性,在网络入侵领域中数据不均衡的问题,为网络入侵分析提供了数据处理的基础支持。网络入侵分析提供了数据处理的基础支持。网络入侵分析提供了数据处理的基础支持。

【技术实现步骤摘要】
一种数据重采样的处理方法


[0001]本专利技术涉及网络流量数据分析领域,特别涉及一种应用于网络入侵检测的数据重采样的处理方法。

技术介绍

[0002]随着近些年计算机网络快速发展,网络安全问题也逐渐受到人们的重视,目前已经催生出一批具有代表性的入侵检测系统。网络入侵检测是一个实践性较强的研究领域,必须结合日下不断更新和变化的网络空间环境,目前广泛使用的网络入侵检测技术都是对网络流量数据进行分析,在巨大的网络流量数据中识别出异常流量行为,从而保护计算机免受攻击。
[0003]对于应用于网络入侵检测中的分类器而言,目前网络流量数据中的入侵流量样本往往远少于正常流量样本,这就使得数据集严重不平衡,导致分类器性能下降,造成分类器在巨大的网络流量数据中准确识别出入侵流量变得尤为困难,这也就给网络入侵检测引起了巨大的挑战。因此,解决样本分类不平衡问题就显得尤为重要。目前国内外学者大都从不平衡处理、分类决策两方面研究网络入侵检测,不平衡处理方面的研究分为欠采样、过采样、混合采样三个方面,可统称为重采样。在这里,我们把数据集中分布偏多的数据称为多数类,分布偏少的数据称为少数类。欠采样方法是针对数据集中的多数类,通过某些策略减少多数类样本,保证剩下的数据集保留尽可能多的信息,使得数据集中的多数类和少数类趋于平衡。过采样方法是针对数据集中的少数类,通过某些策略增加少数类样本,消除数据集中的偏斜分布。新合成的数据加入原始数据集中后,多数类和少数类的数量之比趋于1:1,从而使得数据集达到平衡。混合采样方法就是将欠采样方法与过采样方法结合,先对数据集进行过采样处理,再进行欠采样处理,使得到的数据集中既去除了不必要的多数类样本,又增加了合成的少数类样本,数据集总体趋于平衡。
[0004]在不平衡处理中,使用欠采样方法一般可以提高训练模型的泛化能力,但是在删除样本的过程中,有可能会丢失具有重要信息的样本,造成过拟合的风险。过采样方法通过合成新的少数类样本,弥补多数类与少数类之间的不平衡,但已有的过采样方法过于强调少数类样本,在合成过程中往往会合成一部分噪声,增加噪声对模型的负面影响。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种数据重采样的处理方法,采用混合采样的方式来解决现有技术中欠采样、过采样存在的样本数据处理的缺陷。
[0006]为了实现上述目的,本专利技术采用的技术方案为:一种数据重采样的处理方法,包括对不平衡数据集进行过采样得到平衡数据集;再对得到的平衡数据集进行数据清洗,删除平衡数据集中因采样增加噪声数据。其中不平衡样本集为网络入侵流量样本集。
[0007]采用过采样对不平衡数据集进行过采样得到平衡数据集。
[0008]采用MAHAKIL过采样方法对不平衡数据集进行过采样。
[0009]所述过采样包括:先根据不平衡数据集中多数类N
maj
数量和少数类N
min
数量计算出需要合成的少数类样本数量Sum
new
;计算少数类每个样本到样本中心的马氏距离;将样本按照马氏距离的降序排序,并选取中间样本N
mid
作为分界点,将少数类样本平分为N
ipart1
={y1,y2,...,y
mid
}和N
ipart2
={y
mid+1
,y
mid+2
,...,y
n
}两部分,再为这两部分分配相同的标签并依次从N
ipart1
和N
ipart2
中选取一对标签相同的样本取二者均值作为新样本并加入原始样本中形成新的平衡数据集样本。
[0010]采用增强的最近邻规则的欠采样方法对得到的平衡数据集进行数据清洗。
[0011]采用的增强的最近邻规则的欠采样方法为Tomek Link欠采样方法。
[0012]所述欠采样方法将多数类样本与少数类样本之间的重叠部分进行删除进而去除边界上的噪声。
[0013]所述欠采样方法通过多数类和少数类两种不同类别的数据样本点之间的距离判断是否为噪声样本。
[0014]判断是否为噪声样本包括:样本点x
i
和x
j
属于不同的类别,d(x
i
,[x]j
)表示两个样本点之间的距离。如果不存在第三样本点x
l
使得d(x
l
,[x]i
)<d(x
i
,[x]j
)或者d(x
l
,[x]j
)<d(x
i
,[x]j
)成立,则样本点x
i
和x
j
为噪声样本。
[0015]本专利技术的优点在于:数据集提供多样性的同时消除一部分的边界噪声,使得样本数据更多进而帮助提高模型的泛化能力,降低过拟合的风险,增强模型的健壮性,在网络入侵领域中数据不均衡的问题,为网络入侵分析提供了数据处理的基础支持。
附图说明
[0016]下面对本专利技术说明书各幅附图表达的内容及图中的标记作简要说明:
[0017]图1为本专利技术MAHAKIL算法生成新样本过程原理图;
[0018]图2为本专利技术Tomek Links对示意图;
[0019]图3为本专利技术新样本入侵噪声示意图;
[0020]图4为本专利技术未采用Tomek Link方法前的样本分布情况;
[0021]图5为本专利技术采用Tomek Link方法后的样本分布情况。
具体实施方式
[0022]下面对照附图,通过对最优实施例的描述,对本专利技术的具体实施方式作进一步详细的说明。
[0023]MAHAKIL是一种基于遗传学理论对少数类进行合成处理的过采样方法。该方法先根据多数类N
maj
数量和少数类N
min
数量计算出需要合成的少数类样本数量Sum
new
。计算少数类每个样本到样本中心的马氏距离[5],如式1所示:
[0024][0025]其中,D是每个样本到样本中心的马氏距离,N代表样本,N
mean
代表样本均值,Σ代表样本的协方差矩阵。将样本按照马氏距离的降序排序,并选取中间样本N
mid
作为分界点,平分为N
ipart1
={y1,y2,...,y
mid
}和N
ipart2
={y
mid+1
,y
mid+2
,...,y
n
}两部分,再为这两部分分配相同的标签并依次从N
ipart1
和N
ipart2
中选取一对标签相同的样本取二者均值作为新样本
并加入原始样本中。MAHAKIL算法生成新样本过程如图1所示。
[0026]Tomek Link是一种增强的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据重采样的处理方法,其特征在于:包括对不平衡数据集进行过采样得到平衡数据集;再对得到的平衡数据集进行数据清洗,删除平衡数据集中因采样增加噪声数据。2.如权利要求1所述的一种数据重采样的处理方法,其特征在于:采用过采样对不平衡数据集进行过采样得到平衡数据集。3.如权利要求2所述的一种数据重采样的处理方法,其特征在于:采用MAHAKIL过采样方法对不平衡数据集进行过采样。4.如权利要求3所述的一种数据重采样的处理方法,其特征在于:所述过采样包括:先根据不平衡数据集中多数类N
maj
数量和少数类N
min
数量计算出需要合成的少数类样本数量Sum
new
;计算少数类每个样本到样本中心的马氏距离;将样本按照马氏距离的降序排序,并选取中间样本N
mid
作为分界点,将少数类样本平分为N
ipart1
={y1,y2,...,y
mid
}和N
ipart2
={y
mid+1
,y
mid+2
,...,y
n
}两部分,再为这两部分分配相同的标签并依次从N
ipart1
和N
ipart2
中选取一对标签相同的样本取二者均值作为新样本并加入原始样本中形成新的平衡数据集样本。5.如权利要求1
‑<...

【专利技术属性】
技术研发人员:郑明杨梓良张治军胡申奥罗丹陈书成
申请(专利权)人:安徽师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1