一种面向样本不均衡的网络流量数据增强方法技术

技术编号:34258346 阅读:129 留言:0更新日期:2022-07-24 13:14
本发明专利技术涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明专利技术对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明专利技术提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明专利技术提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。强过程。强过程。

A method of network traffic data enhancement for sample imbalance

【技术实现步骤摘要】
一种面向样本不均衡的网络流量数据增强方法


[0001]本专利技术涉及流量数据增强领域,具体涉及一种面向样本不均衡的网络流量数据增强方法。

技术介绍

[0002]人工智能是指使用某种算法来实现机器模拟人的智能甚至是超越人的智能,而机器学习代表了使用算法来指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。截止目前,机器学习方法已被广泛应用于网络入侵检测。纵观整个机器学习过程,最至关重要的便是数据,一个机器学习模型是否鲁棒、是否具有较高的泛化能力,与训练数据集的质量密不可分。
[0003]大数据时代下,网络流量数据的统计和分析凸显重要性,实时采集到的真实网络环境中的流量数据可以借助机器学习方法来进行入侵识别,网络流量数据集的样本质量将直接决定识别的性能。网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的情况,过采样数据增强方法是用于解决样本不均衡问题的常用方法。该类方法通过对少数类样本进行采样以增加少数类样本个数,最终实现平衡网络流量数据中多数类与少数类的效果。大量现有的过采样方法基于SMOTE算法,直接采用随机抽取的方式进行样本选取,分布稀疏的样本极易被忽视。此外,位于边界处样本具有更高的错分率,其信息也需要被增强。
[0004]相较于一般的图像以及语言文本数据,网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的情况,最终使得训练后的模型泛化能力不足。数据增强是解决上述问题的一个可行方案,其本质是通过引入先验知识来增加数据集中的数据,从而提高模型的泛化能力。常见的用于改善类别不平衡的数据增强方式包括欠采样方法、过采样方法、数据集扩容、代价敏感学习等。其中,过采样是解决网络流量数据样本不均衡问题的比较有效、快捷的方法,代表性算法是SMOTE和ADASYN,其本质是通过对少数类样本进行采样来增加少数类的数据样本个数,最终实现平衡网络流量数据中多数类与少数类的效果。
[0005]为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本专利技术相关度比较高的技术信息:
[0006]专利方案1:CN112036515A基于SMOTE算法的过采样方法、装置和电子设备,提供了一种基于SMOTE算法的过采样方法、装置和电子设备。该方法包括:获取历史样本数据集,确定正、负样本及其对应数量;确定多数类样本数据和少数类样本数据,并进行数据向量化处理;使用离异点监测方法,从所述少数类样本数据集中筛选目标样本数据;基于SMOTE算法,对所述目标样本数据进行过采样,以生成特定数量的新样本数据;根据所生成的新样本数据和原始的少数类样本数据,得到扩增后的少数类样本数据集。本方法在优化采样方法的同时,解决了数据不均衡的问题,还提升了模型预测的精确度,有效减少了数据不均衡引入的偏差。缺陷:该方案基于传统的SMOTE算法进行数据合成,但值得注意的是,聚类结果中通
常边界及边界附近的样本比远离边界的样本更容易被错误分类,因此在数据合成前应更加关注那些边界及边界附近的少数类样本,增强其信息。
[0007]专利方案2:CN111832664A基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法,公开了一种基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法,均衡化方法包括搜索少数类样本、分类少数样本、生成新样本步骤,故障诊断方法还包括故障诊断步骤。本方法增加了边界样本附近的少数样本,降低了边界样本的误判率,从而提高了分类准确性;适用于多种人工智能算法对非均衡数据集的处理,可直接移植和扩展到分类算法中,具有较强的普适性和泛化性。缺陷:该方案的过采样数据增强方法基于Borderline

SMOTE算法,重点关注于增强边界的样本信息,根据少数类样本近邻的同类样本数量来识别哪些是处于少数类和多数类边界的样本,然后生成边界处的少数类样本,但由于直接采用随机抽取的方式进行样本选取,过采样前的数据经常存在分布不均匀的情况,分布稀疏的样本易被忽视。

技术实现思路

[0008]本专利技术针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。
[0009]本专利技术采用的技术方案为:
[0010]一种面向样本不均衡的网络流量数据增强方法,包括以下步骤:
[0011]S1、对原始网络流量数据集进行聚类,根据聚类结果簇中流量数据的数量,将聚类结果簇划分为少数样本集合和多数样本集合;
[0012]S2、计算每个少数类样本集合中所有少数类样本之间的欧几里得距离,得到的欧氏距离矩阵,根据欧氏距离矩阵,获取每个少数类样本集合中每个少数类样本到其他少数类样本的距离占比,并进行归一化得到每个少数类样本间的稀疏因子;
[0013]S3、计算每个少数类样本集合中所有少数类样本到多数类样本集合中所有多数类样本的欧几里得距离,得到欧氏距离矩阵,根据欧氏距离矩阵得到少数类样本到多数类样本的距离占比,并进行归一化得到少数类样本与多数类样本间的差异度;
[0014]S4、根据每个少数类样本集合中少数类样本间的稀疏因子和少数类样本与多数类样本间的差异度,为少数类样本赋予初始权重,并基于SMOTE合成新样本并生成新的数据集。
[0015]进一步的,步骤S1具体包括:
[0016]S11、将原始网络流量数据集通过K

Means聚类算法进行聚类,得到一定数量的聚类结果簇;
[0017]S12、针对任一聚类结果簇c
k
,当簇内所包含的样本数量小于等于阈值θ时,标记为少数类样本集合c
k,min
;当簇内所包含的样本数量大于阈值θ时,标记为多数类样本集合c
k,maj

[0018]进一步的,步骤S2具体包括:
[0019]S21、对于每一个少数类样本集合c
k,min
,计算所有少数类样本之间的欧几里得距离,得到欧氏距离矩阵
[0020][0021]式中,n为少数类样本集合c
k,min
中的样本数量;
[0022]S22、根据欧氏距离矩阵获取少数类样本集合c
k,min
中每个少数类样本x
i
到其他少数类样本的距离占比
[0023]其中,步骤S22具体包括:
[0024]S221、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和,即对欧氏距离矩阵中的每一行元素进行求和,用表示;
[0025]S222、计算少数类样本集合c
k,min
中所有少数类样本之间的距离之和,即对欧氏距离矩阵的上三角元素进行求和,用表示;
[0026]S223、计算少数类样本集合c
k,min本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向样本不均衡的网络流量数据增强方法,其特征在于,包括以下步骤:S1、对原始网络流量数据集进行聚类,根据聚类结果簇中流量数据的数量,将聚类结果簇划分为少数样本集合和多数样本集合;S2、计算每个少数类样本集合中所有少数类样本之间的欧几里得距离,得到的欧氏距离矩阵,根据欧氏距离矩阵,获取每个少数类样本集合中每个少数类样本到其他少数类样本的距离占比,并进行归一化得到每个少数类样本间的稀疏因子;S3、计算每个少数类样本集合中所有少数类样本到多数类样本集合中所有多数类样本的欧几里得距离,得到欧氏距离矩阵,根据欧氏距离矩阵得到少数类样本到多数类样本的距离占比,并进行归一化得到少数类样本与多数类样本间的差异度;S4、根据每个少数类样本集合中少数类样本间的稀疏因子和少数类样本与多数类样本间的差异度,为少数类样本赋予初始权重,并基于SMOTE合成新样本并生成新的数据集。2.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤S1具体包括:S11、将原始网络流量数据集通过K

Means聚类算法进行聚类,得到一定数量的聚类结果簇;S12、针对任一聚类结果簇c
k
,当簇内所包含的样本数量小于等于阈值θ时,标记为少数类样本集合c
k,min
;当簇内所包含的样本数量大于阈值θ时,标记为多数类样本集合c
k,maj
。3.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤S2具体包括:S21、对于每一个少数类样本集合c
k,min
,计算所有少数类样本之间的欧几里得距离,得到欧氏距离矩阵到欧氏距离矩阵式中,n为少数类样本集合c
k,min
中的样本数量;S22、根据欧氏距离矩阵获取少数类样本集合c
k,min
中每个少数类样本x
i
到其他少数类样本的距离占比其中,步骤S22具体包括:S221、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和,即对欧氏距离矩阵中的每一行元素进行求和,用表示;S222、计算少数类样本集合c
k,min
中所有少数类样本之间的距离之和,即对欧氏距离矩阵的上三角元素进行求和,用表示;S223、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和占所有少数类样本间距离之和的比例即计算欧氏距离矩阵中第i行元素之和除以欧氏距离矩阵的上三角元素之和;
S23、当的标准差不为0时,采用z

score的方式对进行标准化,得到标准化分数标准化的过程中采用3σ准则进行噪声清洗,将用于计算稀疏因子的数据范围锁定在算稀疏因子的数据范围锁定在随后对进行归一化计算,即计算在少数类样本标准化分数之和中的占比,得到少数类样本x
i
的稀疏因子Sparsity
i
;当的标准差为0时,直接对进行归一化计算,得到少数类样本x
i
的稀疏因子;计算公式如下:的稀疏因子;计算公式如下:S24、重复S21
...

【专利技术属性】
技术研发人员:霍永华黄伟焦利彬冀云刚杨杨王颖郭义豪
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1