一种网络流量数据的分类方法及装置制造方法及图纸

技术编号:14770748 阅读:113 留言:0更新日期:2017-03-08 14:36
本发明专利技术公开了一种网络流量数据的分类方法及装置,从网络数据流中获取N个流量数据样本,并获取每个流量数据的数据量大小及每个流量数据的标识;根据每个流量数据的数据量大小将N个流量数据分成K类;根据每个流量数据的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;根据采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;根据期望及不确定性概率计算每个流量数据在其所在类中的权重;根据各流量数据在其所在类中的权重按照预设分类规则对流量数据进行再分类。解决现有技术无法对所有流量数据无规则地进行分类的问题。

【技术实现步骤摘要】

本专利技术涉及数据通信的数据管理领域,具体涉及一种网络流量数据的分类方法及装置
技术介绍
目前,在现有技术中采用的网络流量分类方法主要包括基于端口号映射、基于有效载荷分析、基于机器学习等方法。例如,在基于端口号映射的流量分类中,随着互联网技术的不断发展,许多新兴的网络服务(如P2P、在线游戏等)采用动态协商的端口号进行通信,使得基于端口号映射的方法不能保证完全准确的网络流量分析和统计,因而该方法因此受到很多限制。主要表现在:1)端口号和应用之间不是总是关联的,IANA(TheInternetAssignedNumbersAuthority,互联网数字分配机构)没有为所有的应用都定义端口号,尤其是一些新的应用;2)服务器的端口号可以动态分配;3)不同的服务可以包装成熟悉的应用;4)具有不同的QoS(QualityofService,服务质量)的各种服务可以使用相同的端口号。在基于有效载荷分析的流量分类,主要存在的问题包括:1)该方法只能识别出那些可以获得某些关键词的流量,却无法分类其它未知的流量;2)这种技术需要较高的处理和存储能力;3)有效载荷分析会侵犯秘密和安全性。因此其发展也会受到一些阻力。而在基于机器学习的流量分类中,目前机器学习的方法在网络流量分类中的应用还处于发展阶段,基本都是基于有监督学习的流量分类方法或者基于无监督的流量分类方法进行处理,但是这两种方法都存在先天的不足:1)有监督学习方法无法发现新的应用模式;2)无监督分类方法必须对划分结果形成分类器,才能对未知流量判断其应用类型。综上所述,上述方法在网络流量的分类管理中都存在不能全面地对流量数据进行分类的情况。
技术实现思路
本专利技术提供了一种网络流量数据的分类方法及装置,解决现有技术中无法对所有流量数据一视同仁地进行分类的问题。为解决上述技术问题,本专利技术提供一种网络流量数据的分类方法,包括:从网络数据流中获取N个流量数据样本,并获取每个流量数据样本的数据量大小及每个流量数据样本的标识;根据每个流量数据样本的数据量大小将所述N个流量数据样本分成K类;根据所述每个流量数据样本的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;根据所述采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重;根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类;所述N和K都为正整数。在本专利技术的一种实施方式中,每个数据流量在其所在类的不确定性概率包括:INFO(A1,A2)=–p1㏒2(p1)–p2㏒2(p2);每个数据流量在其所在类的期望包括:所述A1和A2分别为每个流量数据采样成功的集合及采样失败的集合;所述p1和p2分别为每个流量数据采样成功的概率及失败的概率;所述ni为子集A1的样本集合个数,pi为子集A2的样本集合个数;所述p为所述N个流量数据样本中各个数据流量采样成功的总次数;所述n为所述N个流量数据样本中各个数据流量采样失败的总次数;所述mi为所述流量数据样本中的流量数据,所述i表示每个类中数据流量元素的标号,t为每个类中的流量数据样本的个数。在本专利技术的一种实施方式中,根据麦克劳林公式对每个数据流量在其所在类的不确定性概率及期望进行简化处理后得到:每个数据流量在其所在类的不确定性概率为:每个数据流量在其所在类的期望为:在本专利技术的一种实施方式中,根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重包括:根据所述期望及不确定性概率得到每个流量数据在其所在类的信息增益为:Gain(mi)=INFO(A1,A2)-E(mi);根据所述信息增益得到每个流量数据的权重为:所述i为某一个流量数据的标号,所述j为同一类中流量数据的标号,所述k为每类中流量数据的个数。在本专利技术的一种实施方式中,根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类包括:将权重值最相近的对应的流量数据归为同一组;或将权重值之间的差值由大到小两两对应的流量数据归为同一组。在本专利技术的一种实施方式中,根据每个流量数据样本的数据量大小将所述N个数据流量样本分成K类包括:根据预设规则在流量数据样本的数据量大小的集合中选取K个分类中心;分别计算各个流量数据与各个分类中心的数据量大小的距离;将每个流量数据与其对应的最短距离的分类中心的数据量大小作为同一组,得到K个分类组。在本专利技术的一种实施方式中,根据预设规则选取K个分类中心包括以下步骤:(1)在待分类的流量数据样本的数据量大小集合{x1,x2,…,xN本文档来自技高网
...
一种网络流量数据的分类方法及装置

【技术保护点】
一种网络流量数据的分类方法,其特征在于,包括:从网络数据流中获取N个流量数据样本,并获取每个流量数据样本的数据量大小及每个流量数据样本的标识;根据每个流量数据样本的数据量大小将所述N个流量数据样本分成K类;根据所述每个流量数据样本的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;根据所述采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重;根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类;所述N和K都为正整数。

【技术特征摘要】
1.一种网络流量数据的分类方法,其特征在于,包括:从网络数据流中获取N个流量数据样本,并获取每个流量数据样本的数据量大小及每个流量数据样本的标识;根据每个流量数据样本的数据量大小将所述N个流量数据样本分成K类;根据所述每个流量数据样本的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;根据所述采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重;根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类;所述N和K都为正整数。2.如权利要求1所述的网络流量数据的分类方法,其特征在于,每个数据流量在其所在类的不确定性概率包括:INFO(A1,A2)=–p1㏒2(p1)–p2㏒2(p2);每个数据流量在其所在类的期望包括:E(mi)=Σi=1tpi+nip+nINFO(A1,A2);]]>所述A1和A2分别为每个流量数据采样成功的集合及采样失败的集合;所述p1和p2分别为每个流量数据采样成功的概率及失败的概率;所述ni为子集A1的样本集合个数,pi为子集A2的样本集合个数;所述p为所述N个流量数据样本中各个数据流量采样成功的总次数;所述n为所述N个流量数据样本中各个数据流量采样失败的总次数;所述mi为所述流量数据样本中的流量数据,所述i表示每个类中数据流量元素的标号,t为每个类中的流量数据样本的个数。3.如权利要求2所述的网络流量数据...

【专利技术属性】
技术研发人员:黄志忠
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1