一种面向样本不均衡的网络流量数据增强方法技术

技术编号：34258346 阅读：129 留言：0更新日期：2022-07-24 13:14

本发明专利技术涉及流量数据增强领域，针对网络流量数据难于获取且大部分数据往往彼此间差异性很小，因而时常出现数据类别严重不平衡的难题，提出了一种面向样本不均衡的网络流量数据增强方法。本发明专利技术对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合，通过计算聚类后数据中少数类样本的稀疏度和差异度，为少数类样本赋予初始权重后，基于SMOTE合成新样本并生成新的数据集。通过本发明专利技术提出的过采样数据增强方法，可以更有效地选择出数据集中分布稀疏处样本和边界处样本，提升生成数据的质量。本发明专利技术提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案，适用于输入为网络流量数据集的分类模型执行前的数据增强过程。强过程。强过程。

A method of network traffic data enhancement for sample imbalance

全部详细技术资料下载

【技术实现步骤摘要】
一种面向样本不均衡的网络流量数据增强方法

[0001]本专利技术涉及流量数据增强领域，具体涉及一种面向样本不均衡的网络流量数据增强方法。

技术介绍

[0002]人工智能是指使用某种算法来实现机器模拟人的智能甚至是超越人的智能，而机器学习代表了使用算法来指导计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断的过程。截止目前，机器学习方法已被广泛应用于网络入侵检测。纵观整个机器学习过程，最至关重要的便是数据，一个机器学习模型是否鲁棒、是否具有较高的泛化能力，与训练数据集的质量密不可分。
[0003]大数据时代下，网络流量数据的统计和分析凸显重要性，实时采集到的真实网络环境中的流量数据可以借助机器学习方法来进行入侵识别，网络流量数据集的样本质量将直接决定识别的性能。网络流量数据难于获取且大部分数据往往彼此间差异性很小，因而时常出现数据类别严重不平衡的情况，过采样数据增强方法是用于解决样本不均衡问题的常用方法。该类方法通过对少数类样本进行采样以增加少数类样本个数，最终实现平衡网络流量数据中多数类与少数类的效果。大量现有的过采样方法基于SMOTE算法，直接采用随机抽取的方式进行样本选取，分布稀疏的样本极易被忽视。此外，位于边界处样本具有更高的错分率，其信息也需要被增强。
[0004]相较于一般的图像以及语言文本数据，网络流量数据难于获取且大部分数据往往彼此间差异性很小，因而时常出现数据类别严重不平衡的情况，最终使得训练后的模型泛化能力不足。数据增强是解决上述问题的一个可行方案，其本质是通过引入先验...

【技术保护点】

【技术特征摘要】
1.一种面向样本不均衡的网络流量数据增强方法，其特征在于，包括以下步骤：S1、对原始网络流量数据集进行聚类，根据聚类结果簇中流量数据的数量，将聚类结果簇划分为少数样本集合和多数样本集合；S2、计算每个少数类样本集合中所有少数类样本之间的欧几里得距离，得到的欧氏距离矩阵，根据欧氏距离矩阵，获取每个少数类样本集合中每个少数类样本到其他少数类样本的距离占比，并进行归一化得到每个少数类样本间的稀疏因子；S3、计算每个少数类样本集合中所有少数类样本到多数类样本集合中所有多数类样本的欧几里得距离，得到欧氏距离矩阵，根据欧氏距离矩阵得到少数类样本到多数类样本的距离占比，并进行归一化得到少数类样本与多数类样本间的差异度；S4、根据每个少数类样本集合中少数类样本间的稀疏因子和少数类样本与多数类样本间的差异度，为少数类样本赋予初始权重，并基于SMOTE合成新样本并生成新的数据集。2.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法，其特征在于，步骤S1具体包括：S11、将原始网络流量数据集通过K
‑
Means聚类算法进行聚类，得到一定数量的聚类结果簇；S12、针对任一聚类结果簇c
k
，当簇内所包含的样本数量小于等于阈值θ时，标记为少数类样本集合c
k,min
；当簇内所包含的样本数量大于阈值θ时，标记为多数类样本集合c
k,maj
。3.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法，其特征在于，步骤S2具体包括：S21、对于每一个少数类样本集合c
k,min
，计算所有少数类样本之间的欧几里得距离，得到欧氏距离矩阵到欧氏距离矩阵式中，n为少数类样本集合c
k,min
中的样本数量；S22、根据欧氏距离矩阵获取少数类样本集合c
k,min
中每个少数类样本x
i
到其他少数类样本的距离占比其中，步骤S22具体包括：S221、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和，即对欧氏距离矩阵中的每一行元素进行求和，用表示；S222、计算少数类样本集合c
k,min
中所有少数类样本之间的距离之和，即对欧氏距离矩阵的上三角元素进行求和，用表示；S223、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和占所有少数类样本间距离之和的比例即计算欧氏距离矩阵中第i行元素之和除以欧氏距离矩阵的上三角元素之和；
S23、当的标准差不为0时，采用z
‑
score的方式对进行标准化，得到标准化分数标准化的过程中采用3σ准则进行噪声清洗，将用于计算稀疏因子的数据范围锁定在算稀疏因子的数据范围锁定在随后对进行归一化计算，即计算在少数类样本标准化分数之和中的占比，得到少数类样本x
i
的稀疏因子Sparsity
i
；当的标准差为0时，直接对进行归一化计算，得到少数类样本x
i
的稀疏因子；计算公式如下：的稀疏因子；计算公式如下：S24、重复S21
...

【专利技术属性】
技术研发人员：霍永华，黄伟，焦利彬，冀云刚，杨杨，王颖，郭义豪，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人