网络流量的分类方法和系统技术方案

技术编号:15749808 阅读:70 留言:0更新日期:2017-07-03 15:10
本发明专利技术涉及一种网络流量的分类方法和系统,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;其中,还包括流量分类器的获取过程上述网络流量的分类方法和系统,该方法可以对大量未知流样本在训练样本较少的情况下进行分类并且准确度高。

【技术实现步骤摘要】
网络流量的分类方法和系统
本专利技术涉及网络流量的分类
,特别是涉及一种网络流量的分类方法和系统。
技术介绍
随着互联网规模不断扩大,网络流量分类在增强互联网可控性、保障网络完全等方面起着日益重要的作用。通过对网络流量类型进行分析,网络管理人员可以在细粒度层次上规划网络流量、平衡网络资源、去除异常流量,从而保证网络安全运行。目前,常用基于机器学习来解决流量分类问题,机器学习方法大致分为监督机器学习方法和无监督机器学习方法。机器学习方法具有分类比较准确、快速的特点,但是分类性能好坏依赖于训练集的选择,并且监督机器学习方法往往需要大量的标签数据,不能处理未知流样本。无监督机器学习方法虽然可应用聚类方法构造一个流量分类器,但是准确率不高,并且类簇的数量需要提前设置。
技术实现思路
基于此,有必要针对现有机器学习方法中无法对大量未知流样本进行分类以及准确度不高的问题,提供一种网络流量的分类方法和系统。一种网络流量的分类方法,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。一种网络流量的分类系统,包括:信息获取模块,用于获取待测试的流量样本集和流量分类器;流量类别确定模块,用于根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;流量分类器获取模块,用于获取流量分类器;所述流量分类器获取模块,还包括:样本集获取模块,用于获取第一样本集和第二样本集;簇分析模块,用于根据所述第一样本集和所述第二样本集聚类成各个簇;样本标记模块,用于对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;样本存储模块,用于将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;流量分类器确定模块,用于根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。上述网络流量的分类方法和系统,利用流相关性方法重新构建一种基于半监督的网络流量分类模型,该方法可以对大量未知流样本在训练样本较少的情况下进行分类并且准确度高。附图说明图1为本专利技术的网络流量的分类方法在一个实施例中的流程示意图;图2为本专利技术实施例中根据第一样本集和第二样本集聚类成各个簇的流程示意图;图3为本专利技术实施例中流相关性分析以及创建应用类别标签数据库的流程示意图;图4为本专利技术实施例中根据各个簇和应用类别标签数据库中应用类别进行映射分析,获得流量分类器的流程示意图;图5为本专利技术实施例中根据待测试的流量样本集和流量分类器确定流量类别的流程示意图;图6为本专利技术的网络流量的分类方法在另一个实施例中的流程示意图;图7为本专利技术的网络流量的分类系统在一个实施例中的结构示意图;图8为本专利技术的网络流量的分类系统在另一个实施例中的结构示意图。具体实施方式下面将结合较佳实施例及附图对本专利技术的内容作进一步详细描述。显然,下文所描述的实施例仅用于解释本专利技术,而非对本专利技术的限定。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。图1是网络流量的分类方法在一个实施例中的流程示意图如图1所示,本实施例中的网络流量的分类方法包括以下步骤:步骤S110,获取待测试的流量样本集和流量分类器。在本实施例中,待测的流量样本集中存储着大量的流量样本。流量分类器,又叫流量分类模型,是一种流量样本与应用类别的对应关系。步骤S120,根据待测试的流量样本集和流量分类器确定流量类别。在本实施例中,根据流量分类器,可以分析得出流量样本与流量类别对应的关系,因此将待测试的流量样本集输入直射流量分类器,就可以计算得到待测试的流量样本的流量类别。步骤S130,通过以下方法获取流量分类器。其中,流量分类器的获取过程包括以下步骤:步骤S131,获取第一样本集和第二样本集,第一样本集中包括有应用类别标签的流量样本,第二样本集中包括无应用类别标签的流量样本。在本实施例中,流量样本集中存储着大量的流量样本。流量样本集分为两种,分别是第一样本集和第二样本集。其中,在第一样本集中的流量样本都具有应用类别标签,即流量样本与应用类别一一对应。而第二样本集中的流量样本没有应用类别。另外,第一样本集往往小于第二样本集,即有应用类别标签的流量样本数量往往远小于无应用类别标签的流量样本数量。步骤S132,根据第一样本集和第二样本集聚类成各个簇。聚类分析(ClusterAnalysis),又称群分析,就是将物理或抽象的集合分组称为由类似的对象组成的多个类的过程,即将未知数据按相似程度分类到不同的类或簇的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,与其他簇中的对象相异。聚类分类主要是按照样本点之间的亲疏远近程度进行分类,聚类分类的方法有多种,可以分为基于层次的方法、基于划分的方法、基于网格的方法、基于密度的方法和基于模型的方法。聚类分析通常被用来进行数据预处理,对杂乱繁多的大数据进行分析找到这些数据之间的关系,方便进一步数据解析和处理。步骤S133,对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对第二样本集中与第一样本集中的流量样本有流相关性的流量样本进行标记。流相关性,即流量之间的关系。流作为网络流量分类的实体并不是彼此孤立存在的,它们之间具有相互的联系。目前研究认为在某一时间段内如果多个流具有相同{dstIP,dstProt,protoType}属性,说明这些流是指向统一服务端统一服务,即这些流极大可能属于同一类型,因此把可以具有相同{dstIP,dstProt,protoType}属性归属于同一类型。因此在本实施例中,分析第一样本集和第二样本集的流相关性,找出同一类型的流量样本。当第一样本集中的流量样本Ai(i可以为任意整数)与第二样本集中的流量样本Bj(j也可以为任意整数)属性相同时,用Ai的应用类别标签来标记Bj。当完成所有的流相关性分析后,将Ai和标记后的Bj保存至应用类别标签数据库中。经过流相关性分析,完成对第二样本集中的流量样本标注后,可以减少无应用类别标签的流量样本的数量,在后期数据分析时增强数据的准确性。步骤S134,将所述第一样本集中的流量样本与所述第二本文档来自技高网...
网络流量的分类方法和系统

【技术保护点】
一种网络流量的分类方法,其特征在于,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中的流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。

【技术特征摘要】
1.一种网络流量的分类方法,其特征在于,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中的流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。2.根据权利要求1所述的网络流量的分类方法,其特征在于,根据所述第一样本集和所述第二样本集聚类成各个簇的步骤包括以下步骤:将所述有第一样本集和所述第二样本集合并成训练集;对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。3.根据权利要求1所述的网络流量的分类方法,其特征在于,对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析的步骤包括以下步骤:获取所述第一样本集中的流量样本的三元属性和所述第二样本集中的流量样本的三元属性,所述三元属性为目的IP、目的端口和传输协议;将所述第一样本集中的流量样本的三元属性与所述第二样本集中的流量样本的三元属性进行对比,确定所述第一样本集中的流量样本和所述第二样本集中的流量样本的流相关性。4.根据权利要求1所述的网络流量的分类方法,其特征在于,根据各个簇和应用类别标签数据库中的应用类别进行映射分析,获得流量分类器的步骤包括以下步骤:根据各个簇中的流量样本和所述应用类别标签数据库中的应用类别利用应用类别函数确定各个簇的应用类别,所述应用类别函数表达式为:LabelCi=argmaxjP(Y=yj|Ci)=argmaxj(nij/ni);其中,Y为应用类别集合,yj为应用类别j,Ci表示第i簇;nij簇i中应用类别为j的流量样本数目,ni为第i簇中总的流量样本数目;根据各个簇应用的类别,按照应用类别对簇进行分类存储,并获得流量分类器,所述流量分类器的表达式为:其中,x表示待测试的样本集,mij表示应用类别j中第i簇的质心。5.根据权利要求1所述的网络流量的分类方法,其特征在于,根据待测试的流量样本集和流量分类器确定流量类别步骤包括以下步骤:所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本;将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与所述待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造所述待测样本集中有应用类别标签的流量样本...

【专利技术属性】
技术研发人员:蔡志杰农革
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1