当前位置: 首页 > 专利查询>东北大学专利>正文

加密流量分类方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:37981638 阅读:13 留言:0更新日期:2023-06-30 09:56
本公开的实施例公开了加密流量分类方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:使用网络抓包工具采集网络流量数据,以包格式存储未经处理的网络流量数据;从所述未经处理的网络流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征;使用基于机器学习的分类器处理所述统计特征和所述时序特征;使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果。本实施例实现了使用两层分类器对处理的结果进行分析,提高了加密流量分类效果的准确率。密流量分类效果的准确率。密流量分类效果的准确率。

【技术实现步骤摘要】
加密流量分类方法、装置、电子设备和计算机可读介质


[0001]本公开的实施例涉及网络数据分类
,具体涉及加密流量分类方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]出于对网络用户隐私数据的保护以及虚拟专用网络(Virtual Private Network,VPN)等通信技术的广泛应用,网络中的许多流量被加密传输,加密流量急剧增长,逐渐成为网络流量的主流趋势。对加密流量分类的研究,无论在网络管理方案还是在网络安全方面,均是一项重要工作。网络管理方面,根据加密流量的分类结果制定不同的优先级服务策略,可以保证网络的服务质量(Quality of Service,QoS);在网络安全方面,从良性流量中识别那些以加密技术伪装的恶意软件流量,以进行流量的异常检测,可以保证信息的安全。
[0003]传统的网络流量分类研究包括基于端口的方法和基于深度包检测(Deep Packet Inspection,DPI)方法等。在互联网的早期发展阶段,网络流量的应用种类较少,大多数应用的端口号是由互联网数字分配机构分配,且是固定的,识别网络流量只需检查数据包头部的端口号字段即可,因此,研究者采用基于端口的技术对不同应用的流量进行分类。基于深度包检测方法试图在数据包的有效负载中选择一些属性或有价值的信息,将其与预定义的模型进行比较,从而达到识别所属应用程序的目的。
[0004]在传统的应用流分类方案中,随着应用种类的增多、动态端口的出现,基于端口技术的流量分类已经不够准确。基于深度包检测方法须在数据包的有效负载中选择一些属性或有价值的信息,但基于内容的识别与分类很容易通过加密数据包有效载荷来规避,会发生无法解密加密流量的问题。
[0005]基于深度学习的流分类技术对于快速精准的流识别有一定优势,但是王勇等人提出的方法并未涉及对加密流量的识别分类,有的方法需要使用长短期记忆网络(LSTM,Long Short

Term Memory),但LSTM的时间跨度较大,并且网络结构比较深,从而导致训练时间增加,计算量过大。深度学习方法中有很多超参数,这些超参数的数量会随着模型的深度呈指数增长,所以需要找到合适的网络结构(如隐藏层的数量,以及最优超参数如学习率、损失函数等),合适的网络结构才能进行准确的流量分类。但是,找寻合适的网络结构是一项困难的任务。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了加密流量分类方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。
[0007]第一方面,本公开的一些实施例提供了一种加密流量分类方法,该方法包括:
[0008]使用网络抓包工具采集网络流量数据,以包格式存储未经处理的网络流量数据;
[0009]从所述未经处理的网络流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征;
[0010]使用基于机器学习的分类器处理所述统计特征和所述时序特征;
[0011]使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果。
[0012]第二方面,本公开的一些实施例提供了一种加密流量分类装置,装置包括:
[0013]采集单元,用于使用网络抓包工具采集网络流量数据,以包格式存储未经处理的网络流量数据;
[0014]提取单元,用于从所述未经处理的网络流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征;
[0015]处理单元,用于使用基于机器学习的分类器处理所述统计特征和所述时序特征;
[0016]分析单元,用于使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果。
[0017]第三方面,本公开的一些实施例提供了一种电子设备,包括:
[0018]一个或多个处理器;
[0019]存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0020]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
[0021]本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,使用网络抓包工具采集网络流量数据,以包格式存储未经处理的网络流量数据;然后,从所述未经处理的网络流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征;之后,使用基于机器学习的分类器处理所述统计特征和所述时序特征;最后,使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果。本实施例实现了使用两层分类器对处理的结果进行分析,提高了加密流量分类效果的准确率。
附图说明
[0022]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0023]图1是根据本公开的加密流量分类方法的一些实施例的流程图;
[0024]图2是根据本公开的基于Stacking的集成学习算法的一些实施例的示意图;
[0025]图3是根据本公开的分裂查找的精确贪心算法的一些实施例的示意图;
[0026]图4是根据本公开的分裂查找的近似贪心算法的一些实施例的示意图;
[0027]图5是根据本公开的面向应用的流分类准确率对比图;
[0028]图6是根据本公开的加密流量分类装置的一些实施例的结构示意图;
[0029]图7是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
[0030]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0031]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0032]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种加密流量分类方法,包括:使用网络抓包工具采集网络流量数据,以包格式存储未经处理的网络流量数据;从所述未经处理的网络流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征;使用基于机器学习的分类器处理所述统计特征和所述时序特征;使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果。2.根据权利要求1所述的方法,其特征在于,所述从所述网络流量的流量数据中提取两种类型的流量特征,其中,所述两种类型的流量特征包括:统计特征和时序特征,包括:采用在线特征提取工具处理所述未经处理的网络流量,得到所述网络流量的统计特征和时序特征,生成特征全集;对所述特征全集进行嵌入式特征选择,得到选择后统计特征和分析后时序特征;将所述选择后统计特征和所述选择后时序特征作为所述两种类型的流量特征中的统计特征和时序特征。3.根据权利要求1所述的方法,其特征在于,所述两层分类器包括:基分类器和元分类器,所述使用两层分类器对处理的结果进行分析,得到所述网络流量数据的分类结果,包括:使用所述基分类器对所述处理的结果进行加密流量分类,得到各个分类器的分类结果;所述元分类器采用逻辑回归算法,将所述分类结果作为特征进行拟合,得到所述网络流量数据的分类结果。4.根据权利要求3所述的方法,其特征在于,所述基分类器的数量是多个,所述基分类器包括以下至少一项:决策树、随机森林和分布式梯度增强库。5.根据权利要求2所述的方法,其特征在于,所述统计特征,包括以下至少一项:源端口、目的端口、后向数据流字节数、前向数据流字节数、流的总字节数、字节分布的平均值和标准差、数据包有效载荷的字节数总和...

【专利技术属性】
技术研发人员:王兴伟陆锡佳王雪吴东阔贾杰
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1