网络流量数据的抽取方法及装置制造方法及图纸

技术编号:30821960 阅读:17 留言:0更新日期:2021-11-18 12:06
本发明专利技术提供一种网络流量数据的抽取方法及装置,方法包括:根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;根据所述类密度信息,确定样本信息量和类信息量;根据所述样本信息量和所述类信息量,确定抽取的代表样本集。所述装置用于执行上述方法。本发明专利技术通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。比难以表明两者之间信息不平衡的问题。比难以表明两者之间信息不平衡的问题。

【技术实现步骤摘要】
网络流量数据的抽取方法及装置


[0001]本专利技术涉及数字信息处理
,尤其涉及一种网络流量数据的抽取方法及装置。

技术介绍

[0002]随着互联网规模日益扩大,互联网的架构的日益复杂,网络安全攻击越来越复杂和隐秘,需要分析的特征维度也在大规模增长。网络监控成为网络管理中一个非常重要和基础的环节。网络管理员根据网络流量数据,对网络及其主要成分的性能进行分析,及时获得网络运行态势及异常情况,为网络异常处理提供重要的信息支撑,对维持网络正常运行和保障网络安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一,研究者大多采用支持向量机、决策树、人工神经网络等技术对网络流量数据进行训练,构建学习模型,从而识别出由于攻击行为导致的偏离正常表现的异常流量数据。
[0003]在网络流量异常检测中,通常会遇到需要识别多种类别网络流量数据的情况,例如识别正常网络行为、拒绝式服务攻击、端口攻击等,即需处理多分类的网络流量数据集。但是,由于网络本身特性,网络流量数据存在天然的不平衡的问题,这会导致训练过程向多数类过拟合,影响模型的准确率。针对此问题,可以从数据的角度出发,采用技术手段对少数类数据进行增强,从而让数据集中不同类别的数据信息相对均衡。在二分类数据集中,常用基于聚类的数据增强方法,但在多分类数据集中,如果使用聚类进行预处理,容易产生过多的聚类区域,难以避免噪声的影响。同时,因为类别的增多,数据的分布也更加复杂,只依靠多数类和少数类的数量比难以表明两者之间的信息不平衡,因为可能存在数量不平衡,但是容易分类的数据分布,也会存在数量差距不大,但是分布复杂,难以分类的情况。
[0004]现有技术常常通过以下方案解决上述问题:
[0005]方案一:基于类别均衡的代表样本发现方法,对数据集进行样本发现工作以有效地发现及组合高质量的代表样本,其中采用类别数目均衡的思想分配代表样本个数。在分配聚类合成样本数量方法中,如果只考虑样本数量比例,而忽视样本的分布情况,就可能为某些数量少但分布密集、信息量大的类别分配过多样本,而为某些数量多但分布复杂、难以分类的类别分配过少样本,难以消除两者之间的信息不平衡。
[0006]方案二:基于人工合成数据过采样技术的不平衡物体识别方法,依据样本点的k近邻包含本类的数目情况,将源领域少数类训练样本分为孤立型、危险型、安全型三种类型,对孤立型样本进行过滤,对危险型、安全型样本进行不同的计算合成,在一定程度上考虑了样本的分布情况,但三种粗略的分类不能完全体现样本的分布情况,未能精确地利用每个样本的信息量,使增强后的数据集达到信息的平衡。

技术实现思路

[0007]本专利技术提供的网络流量数据的抽取方法,用于克服现有技术中存在的上述问题,通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信
息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。
[0008]本专利技术提供一种网络流量数据的抽取方法,包括:
[0009]根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
[0010]根据所述类密度信息,确定样本信息量和类信息量;
[0011]根据所述样本信息量和所述类信息量,确定抽取的代表样本集。
[0012]根据本专利技术提供的一种网络流量数据的抽取方法,所述样本的样本密度信息是通过如下方式获取的:
[0013]基于密度聚类DBSCAN算法,确定所述原始网络流量数据集中样本的邻居集合;
[0014]根据所述邻居集合,确定样本的同类邻居集合;
[0015]根据样本与同类邻居集合中所有样本之间的距离,确定所述样本密度信息。
[0016]根据本专利技术提供的一种网络流量数据的抽取方法,所述根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息,包括:
[0017]根据所述样本的样本密度信息和样本所属类别中所有样本的样本密度信息,确定所述样本的样本密度信息所占所述样本所属类别中所有样本的样本密度信息的百分比;
[0018]根据所述百分比,确定所述类密度信息。
[0019]根据本专利技术提供的一种网络流量数据的抽取方法,所述根据所述类密度信息,确定样本信息量和类信息量,包括:
[0020]根据所述类密度信息和近似值,确定所述样本信息量;
[0021]根据所述样本信息量,确定所述类信息量;
[0022]其中,所述近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的;
[0023]所述目标样本是根据目标子集中的样本确定的;
[0024]所述目标子集是根据样本的同类邻居集合的子集确定的。
[0025]根据本专利技术提供的一种网络流量数据的抽取方法,所述根据所述类密度信息和近似值,确定所述样本信息量,包括:
[0026]根据所述类密度信息和所述近似值,确定样本信息差;
[0027]根据激活sigmoid函数将所述样本信息差映射到预设区间,以确定所述样本信息量。
[0028]根据本专利技术提供的一种网络流量数据的抽取方法,所述根据所述样本信息量和所述类信息量,确定抽取的代表样本集,包括:
[0029]根据所述原始网络流量数据集中每个样本所属类别的类信息量,确定最小的类信息量;
[0030]根据所述每个样本所属类别的类信息量和所述最小的类信息量,确定类别信息差;
[0031]根据所述样本信息量,确定样本的权重;
[0032]根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集。
[0033]根据本专利技术提供的一种网络流量数据的抽取方法,所述根据所述样本的权重和所
述类别信息差,确定抽取的所述代表样本集,包括:
[0034]根据所述样本的权重抽取采样样本,并将抽取到的所述采样样本添加到初始代表样本集中,以对初始代表样本集进行更新;
[0035]根据采样样本的样本信息量,对目标类别信息差进行更新,直至更新后的目标类别信息差满足预设条件,停止抽取采样样本;
[0036]根据更新后的初始代表样本集,确定所述代表样本集;
[0037]其中,目标类别信息差是根据采样样本所属类别的类信息量与所述最小的类信息量之间的类别信息差确定的。
[0038]本专利技术还提供一种网络流量数据的抽取装置,包括:第一获取模块、第二获取模块和数据抽取模块;
[0039]所述第一获取模块,用于根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
[0040]所述第二获取模块,用于根据所述类密度信息,确定样本信息量和类信息量;
[0041]所述数据抽取模块,用于根据所述样本信息量和所述类信息量,确定抽取的代表样本集。
[0042]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络流量数据的抽取方法,其特征在于,包括:根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;根据所述类密度信息,确定样本信息量和类信息量;根据所述样本信息量和所述类信息量,确定抽取的代表样本集。2.根据权利要求1所述的网络流量数据的抽取方法,其特征在于,所述样本的样本密度信息是通过如下方式获取的:基于密度聚类DBSCAN算法,确定所述原始网络流量数据集中样本的邻居集合;根据所述邻居集合,确定样本的同类邻居集合;根据样本与同类邻居集合中所有样本之间的距离,确定所述样本密度信息。3.根据权利要求1所述的网络流量数据的抽取方法,其特征在于,所述根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息,包括:根据所述样本的样本密度信息和样本所属类别中所有样本的样本密度信息,确定所述样本的样本密度信息所占所述样本所属类别中所有样本的样本密度信息的百分比;根据所述百分比,确定所述类密度信息。4.根据权利要求3所述的网络流量数据的抽取方法,其特征在于,所述根据所述类密度信息,确定样本信息量和类信息量,包括:根据所述类密度信息和近似值,确定所述样本信息量;根据所述样本信息量,确定所述类信息量;其中,所述近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的;所述目标样本是根据目标子集中的样本确定的;所述目标子集是根据样本的同类邻居集合的子集确定的。5.根据权利要求4所述的网络流量数据的抽取方法,其特征在于,所述根据所述类密度信息和近似值,确定所述样本信息量,包括:根据所述类密度信息和所述近似值,确定样本信息差;根据激活sigmoid函数将所述样本信息差映射到预设区间,以确定所述样本信息量。6.根据权利要求4所述的网络流量数据的抽取方法,其特征在于,所述...

【专利技术属性】
技术研发人员:杨杨高志鹏郭义豪赵斌男郭少勇王臻赵龙军李恒陆继钊孟慧平董刚松
申请(专利权)人:中国雄安集团数字城市科技有限公司国网河南省电力公司信息通信公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1