This application relates to a network traffic classification method, system and electronic equipment. The method includes: step a: collecting network traffic data and labeling the network traffic data; step b: extracting the two-way flow feature set from the labeled network traffic data; step c: constructing a classification model based on the two-way flow feature set, and outputting the classification results of network traffic data through the classification model. This application classifies network traffic by using the two-way flow characteristics of network traffic data. It can accurately identify and classify a large number of new applications in the Internet, improve the classification accuracy, and effectively guarantee the high accuracy and performance of network traffic classification.
【技术实现步骤摘要】
一种网络流量分类方法、系统及电子设备
本申请属于网络流量分类
,特别涉及一种网络流量分类方法、系统及电子设备。
技术介绍
随着互联网的高速普及,由于大量新应用的出现,现代网络环境变得越来越复杂和多样化。流量分类和网络应用识别在网络管理服务和安全系统中发挥着重要作用,如服务质量、入侵检测系统和交通管理系统。如果能够准确的把网络系统中的流量进行分类和应用识别,不仅对网络安全和网络管理服务效率有很大提升,也可以降低系统时间和内存开销。目前,现有的网络流量分类方法主要包括:一、基于表征学习的网络流量分类:对获取到的网络流量数据进行预处理,使用表征学习算法对预处理后的网络流量数据进行特征提取,将网络流量数据生成网络流向量,根据所述网络流向量对所述网络流量数据进行分类,可实现高效地对网络流量进行分类。二、基于半监督学习的网络流量分类:获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;根据已标记类型的网络流,计算出预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征 ...
【技术保护点】
1.一种网络流量分类方法,其特征在于,包括以下步骤:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。
【技术特征摘要】
1.一种网络流量分类方法,其特征在于,包括以下步骤:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。2.根据权利要求1所述的网络流量分类方法,其特征在于,在所述步骤a中,所述采集网络流量数据,对网络流量数据进行打标签处理具体包括:步骤a1:选择网络流量中的应用类别;步骤a2:收集每个应用对应的网络流量数据包和对应时间段的系统网络日志;步骤a3:分析所述网络流量数据包,找出每个应用的自然属性以及与其他应用之间交流的IP地址和传输协议;步骤a4:提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,并结合IP地址和传输协议进行关联融合,完成所述网络流量数据的打标签处理。3.根据权利要求2所述的网络流量分类方法,其特征在于,在所述步骤b中,所述根据打标签处理后的网络流量数据提取双向流特征集具体包括:步骤b1:根据已打标签的网络流量数据进行分析,分别统计出所述网络流量数据中每对{源IP地址,目的IP地址}基于不同端口号的{源IP地址->目的IP地址}和{目的IP地址->源IP地址}间的双向网络流信息;步骤b2:找出每对{源IP地址->目的IP地址}间的正向网络流,并从所述正向网络流中提取出所有正向网络流特征集;步骤b3:找出每对{目的IP地址->源IP地址}间的反向网络流,并从所述反向网络流中提取出所有反向网络流特征集;步骤b4:组合每对{源IP地址,目的IP地址}间的正向和反向网络流特征集,形成M维特征的双向流特征集。4.根据权利要求3所述的网络流量分类方法,其特征在于,所述步骤b还包括:利用最大方差解释机制对所述双向流特征集进行优化。5.根据权利要求4所述的网络流量分类方法,其特征在于,所述利用最大方差解释机制对双向流特征集进行优化具体包括:步骤b5:对所述网络流量数据进行标准归一化;步骤b6:在所述网络流量数据上,求出双向流特征集上的每个特征的平均值;步骤b7:用归一化后的网络流量数据减去每个特征对应的平均值,得到每个特征的新结果,并对所述每个特征的新结果做方差归一化;步骤b8:计算所述双向流特征集的协方差矩阵,并根据所述协方差矩阵中主对角线上的每个特征的方差值进行由小到大排序,得到双向流特征集中关联度最高最紧密的N维特征;步骤b9:计算所述协方差矩阵的特征值和特征向量,并将特征值按大小进行排序,选出前N个优化后的双向流特征对应的特征向量;步骤b10:将所述网络流量数据投影到所述N个特征向量上;步骤b11:将所述网络流量数据的M维双向流特征集优化成N维双向流特征集。6.一种网络流量分类系统,其特征在于,包括:数据采集模块:用于采集网络流量数据;数据预处理模块:用于对所述网络流量数据进行打标签处理;特征提取模块:用于根据所述打标签处理后的网络流量数据提取双向流特...
【专利技术属性】
技术研发人员:叶可江,赵世林,须成忠,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。