网络流量数据的自适应增强方法及装置制造方法及图纸

技术编号:30362585 阅读:53 留言:0更新日期:2021-10-16 17:21
本发明专利技术提供一种网络流量数据的自适应增强方法及装置,方法包括:基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取少数类聚类中少数类样本的稀疏度权重和数量权重;根据稀疏度权重和数量权重,确定少数类合成样本数量;基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。所述装置用于执行上述方法。本发明专利技术利用HAC聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。了现有技术中合成样本依赖信息不足的问题。

【技术实现步骤摘要】
网络流量数据的自适应增强方法及装置


[0001]本专利技术涉及数字信息处理
,尤其涉及一种网络流量数据的自适应增强方法及装置。

技术介绍

[0002]随着IT架构的日益复杂,互联网规模、用户人数、网络速度等爆炸式增长,网络安全攻击越来越复杂和隐秘,需要分析的特征维度也在大规模增长。及时的网络监控网络异常识别能够为网络管理人员提供重要的信息支撑,为维持网络正常运行、保护用户上网安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一,由于攻击行为会导致网络数据出现一些偏离正常表现的异常行为,研究者多采用基于逻辑回归、贝叶斯、支持向量机、决策树等分类技术对于网络流量进行训练,构建出学习模型,对网络流量数据进行分类,从而识别异常。
[0003]但是,由于网络本身特性,网络流量数据存在天然的不平衡的问题,例如在异常检测的二分类问题中,数据集中正常流量数据通常多于异常流量数据,这会导致基于分类的异常检测模型朝多数类样本过拟合,也就是异常检测结果在正常流量数据的识别上表现得更好,但在属于少数类的异常流量数据上识别准确率会降低,这与异常检测的期望不符。在流量异常检测的不平衡学习中,可以从数据的角度出发,针对导致数据集不平衡的源头问题,采用技术手段对少数类数据进行增强,从而让数据集中不同类别的数据信息相对均衡。
[0004]在针对不平衡数据的过采样技术中,针对同类数据的分布在出现小范围分离的问题,采用K

Means方法对少数类样本的分布区域进行划分,通过仅在安全区域进行过采样来避免产生噪声;针对合成样本数量比例分配问题,通过使稀疏的少数类别样本增加来对抗小的分离问题;在每个选定的簇中实现少数和多数实例的目标比率。该方法需要预先设置更多的参数,易受异常值的影响,且仅考虑到群集分布的稀疏性信息,可能造成合成样本依赖的信息不足。
[0005]使用结合K

Means聚类的数据增强方法平衡数据集,需要额外设置超参数,这使得其在实践过程中需要花费较多的时间来寻找最佳参数,且在分配合成样本数量时将更多样本分配给少数样本稀疏分布的群集,没有综合考虑样本数量等因素,可能造成样本分配比例不合理,进一步影响合成平衡数据集的效果。
[0006]基于类别均衡的代表样本发现方法,对数据集进行样本发现工作以有效地发现及组合高质量的代表样本,在分配合成样本数量时,只考虑了数量比例因素,而未考虑样本的分布情况,可能造成密集聚类信息的冗余和稀疏聚类信息不能充分利用,导致合成样本依赖的信息不足。

技术实现思路

[0007]本专利技术提供的网络流量数据的自适应增强方法,用于克服现有技术中存在的上述问题,利用HAC聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并
且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。
[0008]本专利技术提供一种网络流量数据的自适应增强方法,包括:
[0009]基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
[0010]获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;
[0011]根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;
[0012]基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。
[0013]根据本专利技术提供的一种网络流量数据的自适应增强方法,所述基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类,包括:
[0014]根据所述原始网络流量数据集中的第一多数类样本数量和第一少数类样本数量,确定所述原始网络流量数据集的第一不平衡比;
[0015]基于所述HAC算法对所述原始网络流量数据集进行聚类,并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量,确定所述聚类的第二不平衡比;
[0016]将所述第二不平衡比小于所述第一不平衡比的聚类作为所述少数类聚类。
[0017]根据本专利技术提供的一种网络流量数据的自适应增强方法,所述获取所述少数类聚类中少数类样本的稀疏度权重和数量权重,包括:
[0018]根据所述少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离,确定所述目标少数类聚类的马氏距离矩阵;
[0019]基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值;
[0020]根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重;
[0021]其中,所述目标少数类聚类是根据与所述少数类样本处于同一聚类的少数类聚类确定的;
[0022]所述特征集是根据所述原始网络流量数据集中每个样本的特征确定的。
[0023]根据本专利技术提供的一种网络流量数据的自适应增强方法,所述基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值,包括:
[0024]从所述原始网络流量数据集中随机选择第一预设数量个第一目标样本;
[0025]确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离;
[0026]确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离;
[0027]从所述同类样本集中筛选出第二预设数量个所述第一欧式距离最小的第二目标样本,作为所述第一目标样本的同类最近邻样本;
[0028]从每个所述不同类样本集中筛选出所述第二预设数量个所述第二欧式距离最小的第二目标样本,作为所述第一目标样本的不同类最近邻样本;
[0029]根据所述同类最近邻样本和所述不同类最近邻样本,确定所述每个特征的特征权
重值;
[0030]其中,所述同类样本集是根据与所述第一目标样本同类别的样本确定的;
[0031]所述不同类样本集是根据与所述第一目标样本不同类别的样本确定的。
[0032]根据本专利技术提供的一种网络流量数据的自适应增强方法,所述根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重,包括:
[0033]按照从大到小将所述每个特征的特征权重值顺序排序,以确定特征权重向量;
[0034]根据所述特征权重向量和所述马氏距离矩阵,确定所述少数类聚类中的少数类样本加权距离;
[0035]根据所述少数类样本加权距离和每个少数类聚类中的少数类样本数量,确定所述每个少数类聚类中少数类样本的稀疏度;
[0036]对所述稀疏度进行归一化处理,以确定所述稀疏度权重;
[0037]根据每个少数类聚类中的少数类样本数量和所有少数类聚类中的少数类样本总数量,确定每个少数类聚类的聚类数量;
[0038]对所述聚类数量进行归一化处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络流量数据的自适应增强方法,其特征在于,包括:基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。2.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类,包括:根据所述原始网络流量数据集中的第一多数类样本数量和第一少数类样本数量,确定所述原始网络流量数据集的第一不平衡比;基于所述HAC算法对所述原始网络流量数据集进行聚类,并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量,确定所述聚类的第二不平衡比;将所述第二不平衡比小于所述第一不平衡比的聚类作为所述少数类聚类。3.根据权利要求1所述的网络流量数据的自适应增强方法,其特征在于,所述获取所述少数类聚类中少数类样本的稀疏度权重和数量权重,包括:根据所述少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离,确定所述目标少数类聚类的马氏距离矩阵;基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值;根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重;其中,所述目标少数类聚类是根据与所述少数类样本处于同一聚类的少数类聚类确定的;所述特征集是根据所述原始网络流量数据集中每个样本的特征确定的。4.根据权利要求3所述的网络流量数据的自适应增强方法,其特征在于,所述基于目标Relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值,包括:从所述原始网络流量数据集中随机选择第一预设数量个第一目标样本;确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离;确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离;从所述同类样本集中筛选出第二预设数量个所述第一欧式距离最小的第二目标样本,作为所述第一目标样本的同类最近邻样本;从每个所述不同类样本集中筛选出所述第二预设数量个所述第二欧式距离最小的第二目标样本,作为所述第一目标样本的不同类最近邻样本;根据所述同类最近邻样本和所述不同类最近邻样本,确定所述每个特征的特征权重值;其中,所述同类样本集是根据与所述第一目标样本同类别的样本确定的;
所述不同类样本集是根据与所述第一目标样本不同类别的样本确定的。5.根据权利要求3所述的网...

【专利技术属性】
技术研发人员:杨杨高志鹏赵倩郭义豪赵斌男李昱廷王臻赵龙军李恒
申请(专利权)人:中国雄安集团数字城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1