一种基于序列特征的加密流量分类方法技术

技术编号:24130042 阅读:39 留言:0更新日期:2020-05-13 05:58
本发明专利技术提供一种基于序列特征的加密流量分类方法,通过对原始加密流量数据进行预处理;将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;将局部特征的输出结果使用长短时记忆网络学习数据分组的全局特征。本发明专利技术不需要人工提取特征,并且在此基础上,能够保证加密流量数据原有的序列特征,将其指定到具体应用;解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题;有效地解决了关于两种不同传输层协议的数据包长度不同的问题,并且过滤了网络层和数据链路层的干扰信息;很好地解决了长序列数据的预测问题。

【技术实现步骤摘要】
一种基于序列特征的加密流量分类方法
本专利技术属于网络安全领域,具体涉及一种基于序列特征的加密流量分类方法。
技术介绍
近年来,随着互联网的快速发展,网络已经成为我们生产与生活中不可或缺的一部分,同时也为网络安全带来了重大挑战。自“棱镜”监控事件曝光后,越来越多的用户和企业开始重视信息的保护和安全传输,导致全球的网络加密流量不断飙升。由于加密流量大多是将应用层的数据加密,所以传统的非加密流量识别方法,比如端口号匹配、深度包检测等技术无法满足识别加密流量的需求。后来相关研究人员采用传统的机器学习的方法来识别加密流量,但是这种方法存在准确率低,提取特征依赖专家经验等缺点。深度学习方法由于自动选择特征的优点,成为备受研究人员青睐的流量分类方法。深度学习的另一个优点是,与传统的机器学习方法相比较,它具有更强的学习能力。目前,研究人员在使用深度学习方法来识别加密流量,总是将原始加密流量数据进行升维,转换为图像分类的问题来对加密流量进行分类。目前研究中所使用的数据预处理方法存在以下两点问题:1.破坏了加密流量数据原始的序列特征,不能更加清楚地认识数据本身的特性;2.如果在分类之前对数据采用one-hot编码,会将连续数据离散化,这样破坏了序列数据本身的有序性。本专利技术解决了上述两个问题,立足于数据本身,提出了一种基于序列特征的加密流量分类方法,并且在保证不需对加密数据进行解密的情况下,构建了一个更加有效的分类模型,将原始加密流量分类到具体应用。
技术实现思路
本专利技术的目的在于提供了一种基于序列特征的加密流量分类方法,不需要人工提取特征,并且在此基础上,能够保证加密流量数据原有的序列特征,将其指定到具体应用。本专利技术的目的是这样实现的:一种基于序列特征的加密流量分类方法,具体的步骤为:步骤1.对原始加密流量数据进行预处理;步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。所述对原始加密流量数据进行预处理的具体步骤为:步骤1.1.采用pickle工具包提取原始流量数据的标签,即每条流量所属的应用;步骤1.2.使用分析工具来统计pcap数据中数据分组的最大长度,并且使用scapy流量数据处理工具过滤掉数据分组的头部信息,并得到TCP和UDP数据分组;步骤1.3.统一TCP和UDP数据分组的字节长度,字节长度为步骤2得到的最大长度;步骤1.4.将数据与所属应用进行整合,标记经过上述处理的数据;步骤1.5.标准化流量数据,对数据的每一字节特征除以255,转换为区间为[0,1]的数,并将流量标签转换为one-hot编码。所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为:步骤2.1.将数据预处理之后的分组字节矩阵转换为神经网络的固定输入格式;步骤2.2.在输入层和卷积层中间定义注意力隐藏层;在模型的输入层后面增加两层全连接层dense1和dense2,然后再定义一层注意力隐藏层,将注意力隐藏层与经过两层全连接之后的特征向量进行整合,最终注意力隐藏层返回的维度与dense2相同,与序列向量进行点乘计算和归一化之后,拼接成带有权重的特征向量;步骤2.3.改变权重的特征向量的维度,使其满足一维卷积神经网络的输入格式;在模型中加入两层一维卷积神经网络,设置并调节其卷积核大小、激活函数、过滤器个数、步长、丢弃率;步骤2.4.在模型中加入最大池化,在保证卷积计算提取的特征不变的情况下删除冗余信息,将重要的特征抽取出来。所述使用长短时记忆网络学习数据分组的全局特征的具体步骤为:步骤3.1.将一维卷积神经网络输出的结果作为长短时记忆网络模型的输入;步骤3.2.设置并调节相关参数,步长、输出维度和类型;步骤3.3.将数据进行扁平化操作;步骤3.4.采用softmax分类器将加密流量按照应用程序进行分类。所述步骤2.3的两层一维卷积神经网络的卷积层为C=f(xk+b)其中x代表进行特征重组之后的权重向量,k代表卷积核,b代表偏置值。f表示为激活函数,在本专利技术中使用的激活函数为Relu函数;所述步骤2.3的两层一维卷积神经网络的池化层为S=βdown(C)+b其中β和b为标量参数,down为下采样选择的函数,采用最大池化。所述步骤3.1的长短时记忆网络模型存在判别信息筛选记忆单元,每个单元中均设置有输入门It、输出门Ot、遗忘门Ft,输入门的计算公式为It=f(Wt×[Ht-1,xt]+bi)遗忘门Ft的计算公式为Ft=f(Wf×[Ht-1,xt]+bf)输出门Ot的计算公式为Ot=f(Wo×[Ht-1,xt]+bo)当前状态Ct的计算公式为Ct=Ft×Ct-1+It×tanh(Wc×[Ht-1,xt]+bc)根据当前状态Ct输出的值得到输出Ht的计算公式为Ht=Ot×tanh(Ct)其中,xt表示在时刻t下的输入,Wi,Wf,Wo,Wc表示权重矩阵;bi,bf,bo,bc是偏置向量,f(x)和tanh是激活函数,Ht为单元时刻t的输出。本专利技术的有益效果在于:不需要人工提取特征,并且在此基础上,能够保证加密流量数据原有的序列特征,将其指定到具体应用;解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题;有效地解决了关于两种不同传输层协议的数据包长度不同的问题,并且过滤了网络层和数据链路层的干扰信息;很好地解决了长序列数据的预测问题。附图说明图1为本专利技术的总体结构图。图2为本专利技术的数据预处理的流程示意图。图3为本专利技术使用的基于注意力机制的一维卷积网络的网络结构示意图。图4为本专利技术使用的长短时记忆网络提取流量全局特征的流程示意图。具体实施方式下面结合附图对本专利技术做进一步的描述:实施例1图1是本专利技术一种基于序列特征的加密流量分类方法的总体结构图。如图1所示,本专利技术主要包括虚线框内的3个模块:数据预处理模块、局部序列特征提取模块和全局序列特征提取模块。本专利技术提出的是一种有监督的分类方法,要求样本数据都带有标签。数据预处理模块:读入原始加密流量pcap格式数据包文件,之后统计数据包的最大长度,并统一数据包特征向量的协议和长度,对其进行归一化操作,最终将其与所属标签进行整合。本专利技术所用到的加密流量公开数据集“ICSNVPN-nonVPN”包括7种常规加密流量和7种协议封装流量,所涉及到的应用程序是当今最流行的,并且流量的类型也具有多样性。这套数据有VPN和非VPN两种数据类型和标签,其中非VPN流量(非VPN流量采用的是协议隧道封装技术,对于应用层信息也是加密的)。如果按照流量的业务类型进行分类,可以将这套数据分为以下7个大类:browsing,email,c本文档来自技高网...

【技术保护点】
1.一种基于序列特征的加密流量分类方法,其特征在于,具体的步骤为:/n步骤1.对原始加密流量数据进行预处理;/n步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;/n步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。/n

【技术特征摘要】
1.一种基于序列特征的加密流量分类方法,其特征在于,具体的步骤为:
步骤1.对原始加密流量数据进行预处理;
步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;
步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。


2.根据权利要求1所述的一种基于序列特征的加密流量分类方法,其特征在于:所述对原始加密流量数据进行预处理的具体步骤为:
步骤1.1.采用pickle工具包提取原始流量数据的标签,即每条流量所属的应用;
步骤1.2.使用分析工具来统计pcap数据中数据分组的最大长度,并且使用scapy流量数据处理工具过滤掉数据分组的头部信息,并得到TCP和UDP数据分组;
步骤1.3.统一TCP和UDP数据分组的字节长度,字节长度为步骤2得到的最大长度;
步骤1.4.将数据与所属应用进行整合,标记经过上述处理的数据;
步骤1.5.标准化流量数据,对数据的每一字节特征除以255,转换为区间为[0,1]的数,并将流量标签转换为one-hot编码。


3.根据权利要求1所述的一种基于序列特征的加密流量分类方法,其特征在于,所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为:
步骤2.1.将数据预处理之后的分组字节矩阵转换为神经网络的固定输入格式;
步骤2.2.在输入层和卷积层中间定义注意力隐藏层;在模型的输入层后面增加两层全连接层dense1和dense2,然后再定义一层注意力隐藏层,将注意力隐藏层与经过两层全连接之后的特征向量进行整合,最终注意力隐藏层返回的维度与dense2相同,与序列向量进行点乘计算和归一化之后,拼接成带有权重的特征向量;
步骤2.3.改变权重的特征向量的维度,使其满足一维卷积神经网络的输入格式;在模型中加入两层一维卷积神经网络,设置并调节其卷积核大小、激活函数、过滤器个数、步长、丢弃率;
步骤2.4.在模型中加入最大池化,在保...

【专利技术属性】
技术研发人员:梁恺马春光
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1