【技术实现步骤摘要】
网络流量的分类方法和系统
本专利技术涉及网络流量的分类
,特别是涉及一种网络流量的分类方法和系统。
技术介绍
随着互联网规模不断扩大,网络流量分类在增强互联网可控性、保障网络完全等方面起着日益重要的作用。通过对网络流量类型进行分析,网络管理人员可以在细粒度层次上规划网络流量、平衡网络资源、去除异常流量,从而保证网络安全运行。目前,常用基于机器学习来解决流量分类问题,机器学习方法大致分为监督机器学习方法和无监督机器学习方法。机器学习方法具有分类比较准确、快速的特点,但是分类性能好坏依赖于训练集的选择,并且监督机器学习方法往往需要大量的标签数据,不能处理未知流样本。无监督机器学习方法虽然可应用聚类方法构造一个流量分类器,但是准确率不高,并且类簇的数量需要提前设置。
技术实现思路
基于此,有必要针对现有机器学习方法中无法对大量未知流样本进行分类以及准确度不高的问题,提供一种网络流量的分类方法和系统。一种网络流量的分类方法,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中 ...
【技术保护点】
一种网络流量的分类方法,其特征在于,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中的流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
【技术特征摘要】
1.一种网络流量的分类方法,其特征在于,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中的流量样本的应用类别;其中,所述流量分类器为通过以下方法而获取的流量分类;获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;根据所述第一样本集和所述第二样本集聚类成各个簇;对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。2.根据权利要求1所述的网络流量的分类方法,其特征在于,根据所述第一样本集和所述第二样本集聚类成各个簇的步骤包括以下步骤:将所述有第一样本集和所述第二样本集合并成训练集;对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。3.根据权利要求1所述的网络流量的分类方法,其特征在于,对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析的步骤包括以下步骤:获取所述第一样本集中的流量样本的三元属性和所述第二样本集中的流量样本的三元属性,所述三元属性为目的IP、目的端口和传输协议;将所述第一样本集中的流量样本的三元属性与所述第二样本集中的流量样本的三元属性进行对比,确定所述第一样本集中的流量样本和所述第二样本集中的流量样本的流相关性。4.根据权利要求1所述的网络流量的分类方法,其特征在于,根据各个簇和应用类别标签数据库中的应用类别进行映射分析,获得流量分类器的步骤包括以下步骤:根据各个簇中的流量样本和所述应用类别标签数据库中的应用类别利用应用类别函数确定各个簇的应用类别,所述应用类别函数表达式为:LabelCi=argmaxjP(Y=yj|Ci)=argmaxj(nij/ni);其中,Y为应用类别集合,yj为应用类别j,Ci表示第i簇;nij簇i中应用类别为j的流量样本数目,ni为第i簇中总的流量样本数目;根据各个簇应用的类别,按照应用类别对簇进行分类存储,并获得流量分类器,所述流量分类器的表达式为:其中,x表示待测试的样本集,mij表示应用类别j中第i簇的质心。5.根据权利要求1所述的网络流量的分类方法,其特征在于,根据待测试的流量样本集和流量分类器确定流量类别步骤包括以下步骤:所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本;将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与所述待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造所述待测样本集中有应用类别标签的流量样本...
【专利技术属性】
技术研发人员:蔡志杰,农革,
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院,中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。