基于卷积神经网络的加密流量实时分类方法及装置制造方法及图纸

技术编号:28565010 阅读:28 留言:0更新日期:2021-05-25 18:01
本发明专利技术提供一种基于卷积神经网络的加密流量实时分类方法及装置,该方法包括:在每一条加密流量中采样预设数量的数据包;将采样得到的数据包作为字节流,任意相连两个字节作为一个字节对,并确定所有字节对的频率特征;将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流量的数据流类型。该方法对加密流量的原始字节信息采用基于频率特征的表示,而非原始字节直接构造输入特征,从而使卷积神经网络的学习效果加强,分类准确度更高。此外,采样的数据包数量可以根据实际流量捕获情况调整,而不需要重新设计网络模型的结构,具有更好的适用性。由于采用了字节对的频率特征,从而分类所需数据包少,有利于数据分类的实时性。

【技术实现步骤摘要】
基于卷积神经网络的加密流量实时分类方法及装置
本专利技术涉及计算机网络安全
,尤其涉及一种基于卷积神经网络的加密流量实时分类方法及装置。
技术介绍
随着虚拟专用网络(VPN)在校园网和企业网络中的应用,用户能够依靠加密协议来保障自己的信息不被窥探,在此种背景下,大量的加密流量在网络上传输,加密流量逐渐成为网络流量不可忽视的一部分。但加密流量为这些网络的出口路由器的流量管控带来了难度,如加密后的P2P传输难以被路由器察觉,会占用大量带宽,很难实施针对性的控制策略;另一方面,加密通信的隐私性也保护了恶意软件和不法分子,使其恶意行为得以绕过校园网和企业网络的安全检测,为这些网络带来了很大的安全隐患。因此,如何分类虚拟专用网络的加密流量成为网络
的关键问题。现有技术尝试使用基于人工提取特征与机器学习的加密流量分类方法,但加密流量可用特征少,人工提取特征不能获得高分类准确度。一些依靠时间特性进行分类的方法很容易受到干扰流量的影响,导致分类错误。这种背景下,一些依靠深度学习的分类方法开始涌现,深度学习具有自动表征的能力,能够从加密后的数据中找到自行学习特征,对同类输入具有普遍适用性。当前的大多数基于深度学习的加密流量分类技术致力于提高加密流量分类的准确度,而忽略了技术是否适用于实时分类,实时分类是QoS中流量分类的重要应用场景。实时分类首先要求在加密传输的初始阶段,只采样少量数据就可进行准确分类。其次,现有技术在采样加密流量时,受限于已训练好的卷积神经网络模型,都使用固定长度的采样,无法根据实际捕获情况实时调整采样长度,适用性差。目前的方法,主要使用固定长度的采样策略,在模型训练后无法调整采样范围,缺乏灵活性,分类准确度低。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种基于卷积神经网络的加密流量实时分类方法及装置。本专利技术提供一种基于卷积神经网络的加密流量实时分类方法,包括:在每一条加密流量中采样预设数量的数据包;将采样得到的数据包作为字节流,任意相连两个字节作为一个字节对,并确定所有字节对的频率特征;将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流量的数据流类型;其中,所述预训练的卷积神经网络模型,根据已知数据流类型作为标签的加密流量,经采样和提取频率特征后训练得到。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述确定所有字节对的频率特征,包括:根据含有任一字节对的采样数据包个数和数据包总数,确定对应字节对的普遍性权重;根据所述普遍性权重对每一字节对的次数频率加权后,得到字节对的频率特征。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述根据含有任一字节对的采样数据包个数和数据包总数,确定对应字节对的普遍性权重,包括:其中,pb为采样数据包中字节对b的个数,n为采样数据包总数。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述从每一加密流量中采样预设数量的数据包之前,还包括:根据源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每一条加密流量。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述将所有字节对的频率特征,输入预训练的卷积神经网络模型,包括:将所有字节对的频率特征,归一化后分布在256*256的特征矩阵中,前后两个字节分别对应特征矩阵的行列索引;将所述特征矩阵输入预训练的卷积网络模型。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述将所述特征矩阵输入预训练的卷积网络模型,包括:将所述特征矩阵输入预训练的卷积网络模型的四层特征提取网络进行特征提取后,输入全连接层和输出层,得到分类预测结果;其中,每一特征提取网络,分别包括卷积层、批归一化层(Batchnormalizationlayer)和池化层。根据本专利技术一个实施例的基于卷积神经网络的加密流量实时分类方法,所述数据流类型包括:聊天、视频、语音、P2P、文件传输、电子邮件、VPN聊天、VPN视频、VPN语音、VPNP2P、VPN文件传输、VPN电子邮件。本专利技术还提供一种基于卷积神经网络的加密流量实时分类装置,包括:采集模块,用于从在每一条加密流量中采样预设数量的数据包;提取模块,用于将采样得到的数据包作为字节流,任意相连两个字节作为一个字节对,并确定所有字节对的频率特征;处理模块,用于将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流量的数据流类型;其中,所述预训练的卷积神经网络模型,根据已知数据流类型作为标签的加密流量,经采样和提取频率特征后训练得到。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于卷积神经网络的加密流量实时分类方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于卷积神经网络的加密流量实时分类方法的步骤。本专利技术提供的基于卷积神经网络的加密流量实时分类方法及装置,对加密流量的原始字节信息采用基于频率特征的表示,而非原始字节直接构造输入特征,从而使卷积神经网络的学习效果加强,分类准确度更高。此外,采样的数据包数量可以根据实际流量捕获情况调整,而不需要重新设计网络模型的结构,具有更好的适用性。同时,由于采用了字节对的频率特征,从而分类所需数据包少,有利于数据分类的实时性。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的基于卷积神经网络的加密流量实时分类方法的流程示意图之一;图2是本专利技术提供的频率特征矩阵表示方法示意图;图3是本专利技术提供的卷积神经网络结构示意图;图4是本专利技术提供的基于卷积神经网络的加密流量实时分类方法的流程示意图之二;图5是本专利技术提供的基于卷积神经网络的加密流量实时分类装置的结构示意图;图6是本专利技术提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在校园网和企业网络的出口节点路由器上,将截取到的流量按照应用类型标签进行实时分类,以识别普通流量和VPN流量和它们各自的服务类型,协助路由器实时流量管控。实时分类场景下,只能访问加密流量数据的一小部分,故本专利技术特别提出一种基于频率特征的加密流量表示方法,并使用卷积神经网络(CNN)进本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的加密流量实时分类方法,其特征在于,包括:/n从在每一条加密流量中采样预设数量的数据包;/n将采样得到的数据包作为字节流,任意相连两个字节作为一个字节对,并确定所有字节对的频率特征;/n将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流量的数据流类型;/n其中,所述预训练的卷积神经网络模型,根据已知数据流类型作为标签的加密流量,经采样和提取频率特征后训练得到。/n

【技术特征摘要】
1.一种基于卷积神经网络的加密流量实时分类方法,其特征在于,包括:
从在每一条加密流量中采样预设数量的数据包;
将采样得到的数据包作为字节流,任意相连两个字节作为一个字节对,并确定所有字节对的频率特征;
将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流量的数据流类型;
其中,所述预训练的卷积神经网络模型,根据已知数据流类型作为标签的加密流量,经采样和提取频率特征后训练得到。


2.根据权利要求1所述的基于卷积神经网络的加密流量实时分类方法,其特征在于,所述确定所有字节对的频率特征,包括:
根据含有任一字节对的采样数据包个数和数据包总数,确定对应字节对的普遍性权重;
根据所述普遍性权重对每一字节对的次数频率加权后,得到字节对的频率特征。


3.根据权利要求2所述的基于卷积神经网络的加密流量实时分类方法,其特征在于,所述根据含有任一字节对的采样数据包个数和数据包总数,确定对应字节对的普遍性权重,包括:



其中,pb为采样数据包中字节对b的个数,n为采样数据包总数。


4.根据权利要求1所述的基于卷积神经网络的加密流量实时分类方法,其特征在于,所述从每一加密流量中采样预设数量的数据包之前,还包括:
根据源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每一条加密流量。


5.根据权利要求1所述的基于卷积神经网络的加密流量实时分类方法,其特征在于,所述将所有字节对的频率特征,输入预训练的卷积神经网络模型,包括:
将所有字节对的频率特征,归一化后分布在256*256的特征矩阵中,前后两个字节分别对应特征矩阵的行列索引;
将所述特征...

【专利技术属性】
技术研发人员:张建标赵宝霖公备
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1