一种数据重采样的处理方法技术

技术编号：37314258 阅读：31 留言：0更新日期：2023-04-21 22:56

本发明专利技术公开了一种数据重采样的处理方法，包括对不平衡数据集进行过采样得到平衡数据集；再对得到的平衡数据集进行数据清洗，删除平衡数据集中因采样增加噪声数据。本发明专利技术的优点在于：数据集提供多样性的同时消除一部分的边界噪声，使得样本数据更多进而帮助提高模型的泛化能力，降低过拟合的风险，增强模型的健壮性，在网络入侵领域中数据不均衡的问题，为网络入侵分析提供了数据处理的基础支持。网络入侵分析提供了数据处理的基础支持。网络入侵分析提供了数据处理的基础支持。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据重采样的处理方法

[0001]本专利技术涉及网络流量数据分析领域，特别涉及一种应用于网络入侵检测的数据重采样的处理方法。

技术介绍

[0002]随着近些年计算机网络快速发展，网络安全问题也逐渐受到人们的重视，目前已经催生出一批具有代表性的入侵检测系统。网络入侵检测是一个实践性较强的研究领域，必须结合日下不断更新和变化的网络空间环境，目前广泛使用的网络入侵检测技术都是对网络流量数据进行分析，在巨大的网络流量数据中识别出异常流量行为，从而保护计算机免受攻击。
[0003]对于应用于网络入侵检测中的分类器而言，目前网络流量数据中的入侵流量样本往往远少于正常流量样本，这就使得数据集严重不平衡，导致分类器性能下降，造成分类器在巨大的网络流量数据中准确识别出入侵流量变得尤为困难，这也就给网络入侵检测引起了巨大的挑战。因此，解决样本分类不平衡问题就显得尤为重要。目前国内外学者大都从不平衡处理、分类决策两方面研究网络入侵检测，不平衡处理方面的研究分为欠采样、过采样、混合采样三个方面，可统称为重采样。在这里，我们把数据集中分布偏多的数据称为多数类，分布偏少的数据称为少数类。欠采样方法是针对数据集中的多数类，通过某些策略减少多数类样本，保证剩下的数据集保留尽可能多的信息，使得数据集中的多数类和少数类趋于平衡。过采样方法是针对数据集中的少数类，通过某些策略增加少数类样本，消除数据集中的偏斜分布。新合成的数据加入原始数据集中后，多数类和少数类的数量之比趋于1:1，从而使得数据集达到平衡。混合采样方法就是将欠采样方法与过采样方...

【技术保护点】

【技术特征摘要】
1.一种数据重采样的处理方法，其特征在于：包括对不平衡数据集进行过采样得到平衡数据集；再对得到的平衡数据集进行数据清洗，删除平衡数据集中因采样增加噪声数据。2.如权利要求1所述的一种数据重采样的处理方法，其特征在于：采用过采样对不平衡数据集进行过采样得到平衡数据集。3.如权利要求2所述的一种数据重采样的处理方法，其特征在于：采用MAHAKIL过采样方法对不平衡数据集进行过采样。4.如权利要求3所述的一种数据重采样的处理方法，其特征在于：所述过采样包括：先根据不平衡数据集中多数类N
maj
数量和少数类N
min
数量计算出需要合成的少数类样本数量Sum
new
；计算少数类每个样本到样本中心的马氏距离；将样本按照马氏距离的降序排序，并选取中间样本N
mid
作为分界点，将少数类样本平分为N
ipart1
＝{y1,y2,...,y
mid
}和N
ipart2
＝{y
mid+1
,y
mid+2
,...,y
n
}两部分，再为这两部分分配相同的标签并依次从N
ipart1
和N
ipart2
中选取一对标签相同的样本取二者均值作为新样本并加入原始样本中形成新的平衡数据集样本。5.如权利要求1
‑<...

【专利技术属性】
技术研发人员：郑明，杨梓良，张治军，胡申奥，罗丹，陈书成，
申请(专利权)人：安徽师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人