一种基于序列特征的加密流量分类方法技术

技术编号：24130042 阅读：54 留言：0更新日期：2020-05-13 05:58

本发明专利技术提供一种基于序列特征的加密流量分类方法，通过对原始加密流量数据进行预处理；将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征；将局部特征的输出结果使用长短时记忆网络学习数据分组的全局特征。本发明专利技术不需要人工提取特征，并且在此基础上，能够保证加密流量数据原有的序列特征，将其指定到具体应用；解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题；有效地解决了关于两种不同传输层协议的数据包长度不同的问题，并且过滤了网络层和数据链路层的干扰信息；很好地解决了长序列数据的预测问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于序列特征的加密流量分类方法
本专利技术属于网络安全领域，具体涉及一种基于序列特征的加密流量分类方法。
技术介绍
近年来，随着互联网的快速发展，网络已经成为我们生产与生活中不可或缺的一部分，同时也为网络安全带来了重大挑战。自“棱镜”监控事件曝光后，越来越多的用户和企业开始重视信息的保护和安全传输，导致全球的网络加密流量不断飙升。由于加密流量大多是将应用层的数据加密，所以传统的非加密流量识别方法，比如端口号匹配、深度包检测等技术无法满足识别加密流量的需求。后来相关研究人员采用传统的机器学习的方法来识别加密流量，但是这种方法存在准确率低，提取特征依赖专家经验等缺点。深度学习方法由于自动选择特征的优点，成为备受研究人员青睐的流量分类方法。深度学习的另一个优点是，与传统的机器学习方法相比较，它具有更强的学习能力。目前，研究人员在使用深度学习方法来识别加密流量，总是将原始加密流量数据进行升维，转换为图像分类的问题来对加密流量进行分类。目前研究中所使用的数据预处理方法存在以下两点问题：1.破坏了加密流量数据原始的序列特征，...

【技术保护点】
1.一种基于序列特征的加密流量分类方法，其特征在于，具体的步骤为：/n步骤1.对原始加密流量数据进行预处理；/n步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征；/n步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。/n

【技术特征摘要】
1.一种基于序列特征的加密流量分类方法，其特征在于，具体的步骤为：
步骤1.对原始加密流量数据进行预处理；
步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征；
步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。

2.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于：所述对原始加密流量数据进行预处理的具体步骤为：
步骤1.1.采用pickle工具包提取原始流量数据的标签，即每条流量所属的应用；
步骤1.2.使用分析工具来统计pcap数据中数据分组的最大长度，并且使用scapy流量数据处理工具过滤掉数据分组的头部信息，并得到TCP和UDP数据分组；
步骤1.3.统一TCP和UDP数据分组的字节长度，字节长度为步骤2得到的最大长度；
步骤1.4.将数据与所属应用进行整合，标记经过上述处理的数据；
步骤1.5.标准化流量数据，对数据的每一字节特征除以255，转换为区间为[0,1]的数，并将流量标签转换为one-hot编码。

3.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于，所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为：
步骤2.1.将数据预处理之后的分组字节矩阵转换为神经网络的固定输入格式；
步骤2.2.在输入层和卷积层中间定义注意力隐藏层；在模型的输入层后面增加两层全连接层dense1和dense2，然后再定义一层注意力隐藏层，将注意力隐藏层与经过两层全连接之后的特征向量进行整合，最终注意力隐藏层返回的维度与dense2相同，与序列向量进行点乘计算和归一化之后，拼接成带有权重的特征向量；
步骤2.3.改变权重的特征向量的维度，使其满足一维卷积神经网络的输入格式；在模型中加入两层一维卷积神经网络，设置并调节其卷积核大小、激活函数、过滤器个数、步长、丢弃率；
步骤2.4.在模型中加入最大池化，在保...

【专利技术属性】
技术研发人员：梁恺，马春光，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人