网络流量数据的自适应增强方法及装置制造方法及图纸

技术编号：30362585 阅读：53 留言：0更新日期：2021-10-16 17:21

本发明专利技术提供一种网络流量数据的自适应增强方法及装置，方法包括：基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类，并根据不平衡比确定少数类聚类；获取少数类聚类中少数类样本的稀疏度权重和数量权重；根据稀疏度权重和数量权重，确定少数类合成样本数量；基于过采样算法和少数类合成样本数量，对原始网络流量数据集进行数据增强。所述装置用于执行上述方法。本发明专利技术利用HAC聚类算法不需要参数的特性，减少需要预先设置的参数，降低噪声的影响，并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案，能够自适应分配每个聚类需要合成新样本的数量，解决了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】
网络流量数据的自适应增强方法及装置

[0001]本专利技术涉及数字信息处理
，尤其涉及一种网络流量数据的自适应增强方法及装置。

技术介绍

[0002]随着IT架构的日益复杂，互联网规模、用户人数、网络速度等爆炸式增长，网络安全攻击越来越复杂和隐秘，需要分析的特征维度也在大规模增长。及时的网络监控网络异常识别能够为网络管理人员提供重要的信息支撑，为维持网络正常运行、保护用户上网安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一，由于攻击行为会导致网络数据出现一些偏离正常表现的异常行为，研究者多采用基于逻辑回归、贝叶斯、支持向量机、决策树等分类技术对于网络流量进行训练，构建出学习模型，对网络流量数据进行分类，从而识别异常。
[0003]但是，由于网络本身特性，网络流量数据存在天然的不平衡的问题，例如在异常检测的二分类问题中，数据集中正常流量数据通常多于异常流量数据，这会导致基于分类的异常检测模型朝多数类样本过拟合，也就是异常检测结果在正常流量数据的识别上表现得更好，但在属于少数类的异常流量数据上识别准确率会降低，这与异常检测的期望不符。在流量异常检测的不平衡学习中，可以从数据的角度出发，针对导致数据集不平衡的源头问题，采用技术手段对少数类数据进行增强，从而让数据集中不同类别的数据信息相对均衡。
[0004]在针对不平衡数据的过采样技术中，针对同类数据的分布在出现小范围分离的问题，采用K
‑
Means方法对少数类样本的分布区域进行划分，通过仅在安全区域进...

【技术保护点】

【技术特征摘要】
1.一种网络流量数据的自适应增强方法，其特征在于，包括：基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类，并根据不平衡比确定少数类聚类；获取所述少数类聚类中少数类样本的稀疏度权重和数量权重；根据所述稀疏度权重和所述数量权重，确定少数类合成样本数量；基于过采样算法和所述少数类合成样本数量，对所述原始网络流量数据集进行数据增强。2.根据权利要求1所述的网络流量数据的自适应增强方法，其特征在于，所述基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类，并根据不平衡比确定少数类聚类，包括：根据所述原始网络流量数据集中的第一多数类样本数量和第一少数类样本数量，确定所述原始网络流量数据集的第一不平衡比；基于所述HAC算法对所述原始网络流量数据集进行聚类，并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量，确定所述聚类的第二不平衡比；将所述第二不平衡比小于所述第一不平衡比的聚类作为所述少数类聚类。3.根据权利要求1所述的网络流量数据的自适应增强方法，其特征在于，所述获取所述少数类聚类中少数类样本的稀疏度权重和数量权重，包括：根据所述少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离，确定所述目标少数类聚类的马氏距离矩阵；基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理，以获取所述特征集中每个特征的特征权重值；根据所述马氏距离矩阵和所述每个特征的特征权重值，确定所述稀疏度权重和所述数量权重；其中，所述目标少数类聚类是根据与所述少数类样本处于同一聚类的少数类聚类确定的；所述特征集是根据所述原始网络流量数据集中每个样本的特征确定的。4.根据权利要求3所述的网络流量数据的自适应增强方法，其特征在于，所述基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理，以获取所述特征集中每个特征的特征权重值，包括：从所述原始网络流量数据集中随机选择第一预设数量个第一目标样本；确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离；确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离；从所述同类样本集中筛选出第二预设数量个所述第一欧式距离最小的第二目标样本，作为所述第一目标样本的同类最近邻样本；从每个所述不同类样本集中筛选出所述第二预设数量个所述第二欧式距离最小的第二目标样本，作为所述第一目标样本的不同类最近邻样本；根据所述同类最近邻样本和所述不同类最近邻样本，确定所述每个特征的特征权重值；其中，所述同类样本集是根据与所述第一目标样本同类别的样本确定的；
所述不同类样本集是根据与所述第一目标样本不同类别的样本确定的。5.根据权利要求3所述的网...

【专利技术属性】
技术研发人员：杨杨，高志鹏，赵倩，郭义豪，赵斌男，李昱廷，王臻，赵龙军，李恒，
申请(专利权)人：中国雄安集团数字城市科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人