一种网络流量分类方法、系统及电子设备技术方案

技术编号:20286544 阅读:29 留言:0更新日期:2019-02-10 18:32
本申请涉及一种网络流量分类方法、系统及电子设备。该方法包括:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。本申请利用网络流量数据中的双向流特征对网络流量进行分类,能够对互联网中大量的新应用进行精准识别和分类,提高了分类准确率,能够有效的保障网络流量分类的高精度和高性能。

A Classification Method, System and Electronic Equipment for Network Traffic

This application relates to a network traffic classification method, system and electronic equipment. The method includes: step a: collecting network traffic data and labeling the network traffic data; step b: extracting the two-way flow feature set from the labeled network traffic data; step c: constructing a classification model based on the two-way flow feature set, and outputting the classification results of network traffic data through the classification model. This application classifies network traffic by using the two-way flow characteristics of network traffic data. It can accurately identify and classify a large number of new applications in the Internet, improve the classification accuracy, and effectively guarantee the high accuracy and performance of network traffic classification.

【技术实现步骤摘要】
一种网络流量分类方法、系统及电子设备
本申请属于网络流量分类
,特别涉及一种网络流量分类方法、系统及电子设备。
技术介绍
随着互联网的高速普及,由于大量新应用的出现,现代网络环境变得越来越复杂和多样化。流量分类和网络应用识别在网络管理服务和安全系统中发挥着重要作用,如服务质量、入侵检测系统和交通管理系统。如果能够准确的把网络系统中的流量进行分类和应用识别,不仅对网络安全和网络管理服务效率有很大提升,也可以降低系统时间和内存开销。目前,现有的网络流量分类方法主要包括:一、基于表征学习的网络流量分类:对获取到的网络流量数据进行预处理,使用表征学习算法对预处理后的网络流量数据进行特征提取,将网络流量数据生成网络流向量,根据所述网络流向量对所述网络流量数据进行分类,可实现高效地对网络流量进行分类。二、基于半监督学习的网络流量分类:获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;根据已标记类型的网络流,计算出预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;重复以上两步,直到k个聚簇都判定出流量类型的流量簇;将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。该方法利用了半监督学习的优势,与传统的只使用标注数据训练模型的监督学习算法相比,准确性和稳定性更好。三、一种自适应的半监督网络流量分类:获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;根据输出的聚簇中每个簇的已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。综上所述,现有的网络流量分类方法主要注重算法层面的网络流量分类,都是对训练阶段的分类算法部分提出了各种各样的优化和改进算法,却没有解决如何能从网络数据包中提取到大量相关有效的特征集问题,无法对互联网中大量的新应用进行精准的识别和分类。
技术实现思路
本申请提供了一种网络流量分类方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种网络流量分类方法,包括以下步骤:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。本申请实施例采取的技术方案还包括:在所述步骤a中,所述采集网络流量数据,对网络流量数据进行打标签处理具体包括:步骤a1:选择网络流量中的应用类别;步骤a2:收集每个应用对应的网络流量数据包和对应时间段的系统网络日志;步骤a3:分析所述网络流量数据包,找出每个应用的自然属性以及与其他应用之间交流的IP地址和传输协议;步骤a4:提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,并结合IP地址和传输协议进行关联融合,完成所述网络流量数据的打标签处理。本申请实施例采取的技术方案还包括:在所述步骤b中,所述根据打标签处理后的网络流量数据提取双向流特征集具体包括:步骤b1:根据已打标签的网络流量数据进行分析,分别统计出所述网络流量数据中每对{源IP地址,目的IP地址}基于不同端口号的{源IP地址->目的IP地址}和{目的IP地址->源IP地址}间的双向网络流信息;步骤b2:找出每对{源IP地址->目的IP地址}间的正向网络流,并从所述正向网络流中提取出所有正向网络流特征集;步骤b3:找出每对{目的IP地址->源IP地址}间的反向网络流,并从所述反向网络流中提取出所有反向网络流特征集;步骤b4:组合每对{源IP地址,目的IP地址}间的正向和反向网络流特征集,形成M维特征的双向流特征集。本申请实施例采取的技术方案还包括:所述步骤b还包括:利用最大方差解释机制对所述双向流特征集进行优化。本申请实施例采取的技术方案还包括:所述利用最大方差解释机制对双向流特征集进行优化具体包括:步骤b5:对所述网络流量数据进行标准归一化;步骤b6:在所述网络流量数据上,求出双向流特征集上的每个特征的平均值;步骤b7:用归一化后的网络流量数据减去每个特征对应的平均值,得到每个特征的新结果,并对所述每个特征的新结果做方差归一化;步骤b8:计算所述双向流特征集的协方差矩阵,并根据所述协方差矩阵中主对角线上的每个特征的方差值进行由小到大排序,得到双向流特征集中关联度最高最紧密的N维特征;步骤b9:计算所述协方差矩阵的特征值和特征向量,并将特征值按大小进行排序,选出前N个优化后的双向流特征对应的特征向量;步骤b10:将所述网络流量数据投影到所述N个特征向量上;步骤b11:将所述网络流量数据的M维双向流特征集优化成N维双向流特征集。本申请实施例采取的另一技术方案为:一种网络流量分类系统,包括:数据采集模块:用于采集网络流量数据;数据预处理模块:用于对所述网络流量数据进行打标签处理;特征提取模块:用于根据所述打标签处理后的网络流量数据提取双向流特征集;模型构建模块:用于基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。本申请实施例采取的技术方案还包括:所述数据采集模块采集网络流量数据具体包括:选择网络流量中的应用类别,收集每个应用对应的网络流量数据包和对应时间段的系统网络日志;所述数据预处理模块对网络流量数据进行打标签处理具体包括:分析所述网络流量数据包,找出每个应用的自然属性以及与其他应用之间交流的IP地址和传输协议;提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,并结合IP地址和传输协议进行关联融合,完成所述网络流量数据的打标签处理。本申请实施例采取的技术方案还包括:所述特征提取模块根据打标签处理后的网络流量数据提取双向流特征集具体包括:根据已打标签的网络流量数据进行分析,分别统计出所述网络流量数据中每对{源IP地址,目的IP地址}基于不同端口号的{源IP地址->目的IP地址}和{目的IP地址->源IP地址}间的双向网络流信息;找出每对{源IP地址->目的IP地址}间的正向网络流,并从所述正向网络流中提取出所有正向网络流本文档来自技高网
...

【技术保护点】
1.一种网络流量分类方法,其特征在于,包括以下步骤:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。

【技术特征摘要】
1.一种网络流量分类方法,其特征在于,包括以下步骤:步骤a:采集网络流量数据,并对所述网络流量数据进行打标签处理;步骤b:根据所述打标签处理后的网络流量数据提取双向流特征集;步骤c:基于所述双向流特征集构建分类模型,通过所述分类模型输出网络流量数据的分类结果。2.根据权利要求1所述的网络流量分类方法,其特征在于,在所述步骤a中,所述采集网络流量数据,对网络流量数据进行打标签处理具体包括:步骤a1:选择网络流量中的应用类别;步骤a2:收集每个应用对应的网络流量数据包和对应时间段的系统网络日志;步骤a3:分析所述网络流量数据包,找出每个应用的自然属性以及与其他应用之间交流的IP地址和传输协议;步骤a4:提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,并结合IP地址和传输协议进行关联融合,完成所述网络流量数据的打标签处理。3.根据权利要求2所述的网络流量分类方法,其特征在于,在所述步骤b中,所述根据打标签处理后的网络流量数据提取双向流特征集具体包括:步骤b1:根据已打标签的网络流量数据进行分析,分别统计出所述网络流量数据中每对{源IP地址,目的IP地址}基于不同端口号的{源IP地址->目的IP地址}和{目的IP地址->源IP地址}间的双向网络流信息;步骤b2:找出每对{源IP地址->目的IP地址}间的正向网络流,并从所述正向网络流中提取出所有正向网络流特征集;步骤b3:找出每对{目的IP地址->源IP地址}间的反向网络流,并从所述反向网络流中提取出所有反向网络流特征集;步骤b4:组合每对{源IP地址,目的IP地址}间的正向和反向网络流特征集,形成M维特征的双向流特征集。4.根据权利要求3所述的网络流量分类方法,其特征在于,所述步骤b还包括:利用最大方差解释机制对所述双向流特征集进行优化。5.根据权利要求4所述的网络流量分类方法,其特征在于,所述利用最大方差解释机制对双向流特征集进行优化具体包括:步骤b5:对所述网络流量数据进行标准归一化;步骤b6:在所述网络流量数据上,求出双向流特征集上的每个特征的平均值;步骤b7:用归一化后的网络流量数据减去每个特征对应的平均值,得到每个特征的新结果,并对所述每个特征的新结果做方差归一化;步骤b8:计算所述双向流特征集的协方差矩阵,并根据所述协方差矩阵中主对角线上的每个特征的方差值进行由小到大排序,得到双向流特征集中关联度最高最紧密的N维特征;步骤b9:计算所述协方差矩阵的特征值和特征向量,并将特征值按大小进行排序,选出前N个优化后的双向流特征对应的特征向量;步骤b10:将所述网络流量数据投影到所述N个特征向量上;步骤b11:将所述网络流量数据的M维双向流特征集优化成N维双向流特征集。6.一种网络流量分类系统,其特征在于,包括:数据采集模块:用于采集网络流量数据;数据预处理模块:用于对所述网络流量数据进行打标签处理;特征提取模块:用于根据所述打标签处理后的网络流量数据提取双向流特...

【专利技术属性】
技术研发人员:叶可江赵世林须成忠
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1