一种基于深度学习的网络加密流量识别方法技术

技术编号：30097858 阅读：202 留言：0更新日期：2021-09-18 09:02

一种基于深度学习的网络加密流量识别方法，属于深度学习的识别算法领域。特征工程存在流量特征提取和选择方而耗时耗力的问题。一种基于深度学习的网络加密流量识别方法，获取数据集；对数据集进行预处理；利用SMOTE算法平衡数据集得到数据样本流；对DenseNet模型进行训练，并利用训练好的模型自动进行特征提取；添加softmax层，对加密流量进行识别判断。本发明专利技术设计了在数据类别不平衡条件下的基于深度学习的加密流量识别模型，缩短特征识别所需时间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的网络加密流量识别方法

[0001]本专利技术涉及一种基于深度学习的网络加密流量识别方法。

技术介绍

[0002]基于深度学习的加密流量识别方法的研究中，精细化识别出加密流量的应用服务是最终要完成的任务。主要识别方法涉及流量识别以及加密流量识别研究。在网络流量识别技术中，有许多传统的技术方法。随着科技的进步，流量识别技术也在不断地进步，技术方法可以大致分为以下几类：基于端口号的识别技术、深度包检测识别技术和基于机器学习的识别技术。
[0003]随着互联网应用多元化的发展，基于端口号的识别技术的识别准确率越来越低。由于越来越多的对等网络流量(Peer to Peer,P2P)的出现，许多应用服务使用动态端口，即不再使用映射表中的知名端口号，同时，许多web和ftp服务器为了提高服务器的灵活性，允许手动指定端口号。除此之外，很多恶意软件为了隐藏自己的流量不被检测，使用动态端口和端口伪装技术，进一步降低了端口识别技术的识别精度。
[0004]深度包检测识别技术的识别准确率极高且简单有效，但具有一些弊端；例如，人力成本巨大、在如今网络应用推陈出新和加密技术的普及下，DPI识别技术亦不能满足当前流量识别的需求。
[0005]基于机器学习的识别技术是目前常用的流量识别技术。因此，多以此用于加密流量识别研究。与未知协议的流量类似，使用加密技术的应用服务也越来越多。对于已加密的流量，Okada Y等人通过利用数据流中与加密无关的信息，例如数据包字节数长度和持续时间等，识别加密流量的应用层协议。...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的网络加密流量识别方法，其特征在于：所述方法通过以下步骤实现：步骤一、获取数据集；步骤二、对数据集进行预处理；步骤三、利用SMOTE算法平衡数据集得到数据样本流；步骤四、对DenseNet模型进行训练，并利用训练好的模型自动进行特征提取；步骤五、添加softmax层，对加密流量进行识别判断。2.根据权利要求1所述的一种基于深度学习的网络加密流量识别方法，其特征在于：所述的对数据集进行预处理的步骤，具体为：步骤二一、数据负载提取：采用Scapy模块对pcap文件进行读取和处理，读取流量数据后，通过Scapy模块分析每一条数据流的结构，提取出每条流量的数据流负载信息，即有效载荷字节，保存；步骤二二、数据负载处理：对有效载荷数据统一截取长度为1024字节，将数据中过长的前n个字节的数据流截断，对于不足n个字节数填充0，过短的数据用0来填充；去除数据包的数据链路层字节；之后，为了消除实验误差影响需要在UDP头部填充0；对提取的数据包字节进行归一化处理，将字节数值由[0,255]归一化为[0,1]，将每个分组的数据填充到32*32维度的矩阵中。3.根据权利要求1所述的一种基于深度学习的网络加密流量识别方法，其特征在于：利用SMOTE算法平衡数据集得到数据样本流的步骤，具体为：首先，根据欧氏距离找到少数类样本的样本中心，根据距离中心点的欧式距离分为核心层样本点、第二层样本点、最外层样本点；其中每层样本点数量平均分配；其次，根据不同的层设定不同的样本点选取概率，其中三层样本点的依据距离中心点由近及远分配选取概率；最终实现线性插值，达到样本均衡；具体算法过程实现如下:a)设训练集的少数类样本数为T，目标合成少数类到N个新样本(N必须是正整数且N>T)，少数类的一个样本X
i
，其特征向量为X
i
,i∈...

【专利技术属性】
技术研发人员：杨明极，王政耀，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人