当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向应用层未知网络协议的流量分类方法技术

技术编号:33931973 阅读:75 留言:0更新日期:2022-06-25 22:35
本发明专利技术公开了一种面向应用层未知网络协议的流量分类方法,该方法首先采集主干网中的未知流量数据集,并设计了统计对齐字节概率的特征提取方法自动识别并定位应用层未知协议中的频繁字符。其次,该方法提出了合并相似聚类算法,此算法能够在使用无监督机器学习方法对未标记流量进行聚类标注的基础上,合并属于相同协议的聚类的标签,完成流量标记工作。最后,该方法使用有监督机器学习方法训练标记好的流量数据,得到分类模型,该模型可用于分类新的未知网络流量。本发明专利技术能够在未标记的主干网流量中提取有效特征并实现应用层未知网络协议的分类,可用于网络流量分类和网络管理。可用于网络流量分类和网络管理。可用于网络流量分类和网络管理。

【技术实现步骤摘要】
一种面向应用层未知网络协议的流量分类方法


[0001]本专利技术涉及一种面向应用层未知网络协议的流量分类方法,属于网络测量


技术介绍

[0002]随着互联网应用种类的增多,网络中的数据传输量在不断扩充,给网络管理带来了挑战,并且可能导致网络攻击等安全问题。因此,对网络安全进行有效的监管至关重要。网络流量分类的主要目的是帮助网络管理员处理、控制和分类流量,从而能够监控网络状态、优化网络服务。因此,它可以用于服务质量提供、流量监控和异常检测等方面。
[0003]现有的流量分类方法主要有基于规则的方法和统计方法。基于规则的方法可以分为基于端口和基于负载的方法。但是随着动态端口号和加密协议的使用,这类方法的应用遭到了限制。统计方法利用流量的一组可观察特征来展示网络流量的不同行为,可以进一步分为机器学习方法和深度学习方法。这类方法准确率高、适应性强,并且可以解决基于规则的方法中存在的问题。
[0004]然而随着时代的进步,协议的种类越来越多。在总流量中,传统协议产生的流量占比逐渐下降,而新兴协议产生的流量不断增加。2018年全球本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向应用层未知网络协议的流量分类方法,其特征在于,该方法包括以下步骤:步骤(1)在主干网络中通过数据采集工具分不同时间采集流量数据,先采集的流量作为训练数据,后采集的流量作为测试数据,对训练数据的处理进入步骤(2),对测试数据的处理进入步骤(6);步骤(2)通过统计对齐字节概率的特征提取方法提取训练数据的特征,获得特征向量;步骤(3)使用无监督机器学习方法对步骤(2)获得的特征向量进行聚类标注,获得聚类结果;步骤(4)使用合并相似聚类算法对步骤(3)获得的聚类结果进行相似聚类的合并,统一相同协议的聚类标签;步骤(5)使用有监督机器学习方法对步骤(4)中已标记的流量数据进行模型训练,获得分类模型;步骤(6)通过统计对齐字节概率的特征提取方法提取测试数据的特征,获得特征向量;步骤(7)使用步骤(5)中的分类模型对步骤(6)中未标记的流量数据进行分类。2.根据权利要求1所述的一种面向应用层未知网络协议的流量分类方法,其特征在于,所述步骤(1)具体包含如下子步骤:(1.1)在主干网络的一个节点上通过数据采集工具采集一定时间的流量数据集,为保证数据集满足协议种类丰富、统计分析以及训练、验证、测试机器学习模型的需要,数据集大小建议为300G以上,具体采集时间可根据主干网络带宽动态调整;(1.2)采集数据集时分不同时间点在相同节点采集,从而尽可能扩大采集到的协议种类数,并将数据集保存为pcap文件,根据采集的时间顺序对流量数据进行划分,先采集的流量作为训练数据,后采集的流量作为测试数据,划分数据集时保证训练数据多于测试数据,划分的时间比例约为2:1。3.根据权利要求1所述的一种面向应用层未知网络协议的流量分类方法,其特征在于,所述步骤(2)中统计对齐字节概率的特征提取方法具体包含如下子步骤:(2.1)第一步为自动识别流量中的频繁字符,具体方法如下:(2.1.1)在流量数据中,将每条流的前n个数据包垂直对齐;(2.1.2)为有效负载的前k个字节分别设置计数器向量,因为每一字节有256种组合方式,所以一个计数器向量对应记录256种组合出现的具体次数,并通过式(1

1)计算出现的概率,其中N
ij
代表第i个字节中第j种组合的出现次数;(2.1.3)基于正态分布分析设置阈值th1,提取字符概率高于th1的字符作为频繁字符,并记录含有频繁字符的字节位置数p;(2.2)第二步为提取特征向量,具体方法如下:(2.2.1)因为一次传输的数据量大小超过最大传输单元(MTU)时,数据包将被分片,分片后只有第一个数据包含有协议格式,因此,为了避免不必要的数据包参与特征提取,对每条流的后续数据包进行过滤,筛选出前k个字节中至少个字节位置数含有频繁字符的数据包;
(2.2.2)将过滤出的数据包垂直对齐、为前m字节设置计数器向量并计算字符概率,然后重新设置阈值th2,记录高于th2的字符概率作为特征向量,最终一条流被数字化为含有256m个属性的特征向量...

【专利技术属性】
技术研发人员:吴桦崔超群程光
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1