一种基于深度学习的流量识别与特征提取方法技术

技术编号：26172879 阅读：27 留言：0更新日期：2020-10-31 13:52

本发明专利技术公开了一种基于深度学习的流量识别与特征提取方法，包括：数据包抓取，数据集建立，卷积神经网络建立，模型训练，模型自习及优化，网络数据包特征提取。本发明专利技术充分利用卷积神经网络在数据处理应用上的良好性能，设计一种兼具快速和准确的适合网络报文处理的卷积神经网络。并利用训练好的模型进行流量分类预测，把结果中预测错误和分类在正确类型下概率不足的数据包挑出来重新融入训练集训练模型，实现模型的自主优化。利用类激活映射（Class Activation Mapping）的方法，对流量进行特征提取，提取的特征字段可以使我们了解特定类型的数据包的特点，特征字段不仅可用于传统的DPI技术，亦适用于已经部署了DPI流量分类的应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的流量识别与特征提取方法
本专利技术涉及数据的深度学习算法
，尤其涉及一种基于深度学习的流量识别与特征提取方法。
技术介绍
网络流量分类是现代通讯网络中的一个重要任务，它为网络资源调配、网络入侵检测、恶意软件检测、运营商监管调控与定价等应用领域提供了判断依据与底层技术支持。同时随着SD-WAN和SRv6等技术的发展，提供个性化的网络服务以及流量工程都对流量分类技术提出了更高的要求。当今移动互联网的蓬勃发展，大量新型网络应用的出现，致使当今的网络流量呈现出了网络流量数据规模庞大、网络应用类型繁多、网络协议多样等特点。针对新型的网络特点，如何精准高效的对网络流量进行分类一直是产业界、学术界和网络监管部门广泛关注的热点问题。目前网络流量分类主要有三种方法：基于端口的分类、基于负载的分类、基于流统计特征分类，其中最后一类方法往往与机器学习相关。基于端口分类的方法出现最早，其只需检测TCP或UDP报文头的源端口号、目的端口号，并与不同应用对应的标准端口进行比对即可知道报文所属的应用类型。标准端口号是互联网数字分配机构IANA对常见应用分配的固定端口号，例如：21端口对应FTP，22端口对应SSH，80端口对应HTTP，443端口对应HTTPS等。由于当时互联网应用较少，分配的端口号和应用一一对应，根据端口号就能方便而准确地知道流量对应的应用。但是随着互联网应用的发展，一些新的特点出现了，比如许多P2P应用会使用动态端口号，部分服务器允许手动指定端口号，恶意流量有意使用其他应用的默认端口号，或采用动...

【技术保护点】
1.一种基于深度学习的流量识别与特征提取方法，其特征在于：包括；/n数据包抓取，利用进程抓包工具将每个进程产生的数据包保存在单独且对应的pcap文件中；/n数据集建立，利用网络流量包解析库对所述pcap文件处理并移除pcap文件头部的MAC地址和IP地址，把pcap文件中多个类别的数据包以字节为单位转换成矩阵的形式，并将该矩阵存于numpy数组中打乱顺序后保存为numpy数据文件；对该numpy数据文件建立对应的标签数据集；/n卷积神经网络建立，使用三次卷积层，第一卷积层设置2*2的最大池化层；第二卷积层后使用一个全局平均池化层，第三卷积层使用一个含有多类神经元的全连接层作为输出层；第一及第二卷积层的非线性激活函数使用RELU函数；第三卷积层采用sigmoid激活函数；/n模型训练，使用硬件进行训练，每隔5个epoch下调一次学习率，使用NAG算法在训练集上进行训练，训练时不使用测试集，训练准确率达到预设标准时终止训练；/n模型自习及优化，在测试集中挑选数据包给模型输入，经过正向传播，在输出层可以得到一个向量，经过Softmax函数归一化之后就得到了该数据包分别归属于每个类别的预测概率...

【技术特征摘要】
1.一种基于深度学习的流量识别与特征提取方法，其特征在于：包括；
数据包抓取，利用进程抓包工具将每个进程产生的数据包保存在单独且对应的pcap文件中；
数据集建立，利用网络流量包解析库对所述pcap文件处理并移除pcap文件头部的MAC地址和IP地址，把pcap文件中多个类别的数据包以字节为单位转换成矩阵的形式，并将该矩阵存于numpy数组中打乱顺序后保存为numpy数据文件；对该numpy数据文件建立对应的标签数据集；
卷积神经网络建立，使用三次卷积层，第一卷积层设置2*2的最大池化层；第二卷积层后使用一个全局平均池化层，第三卷积层使用一个含有多类神经元的全连接层作为输出层；第一及第二卷积层的非线性激活函数使用RELU函数；第三卷积层采用sigmoid激活函数；
模型训练，使用硬件进行训练，每隔5个epoch下调一次学习率，使用NAG算法在训练集上进行训练，训练时不使用测试集，训练准确率达到预设标准时终止训练；
模型自习及优化，在测试集中挑选数据包给模型输入，经过正向传播，在输出层可以得到一个向量，经过Softmax函数归一化之后就得到了该数据包分别归属于每个类别的预测概率，其中最大概率对应的类别就是对应数据包的预测结果；若数据包未能在其对应的类别中去的最大概率，则将该数据包加入训练集中重新训练模型，得到的新模型再次自习及优化；
网络数据包特征提取，利用卷积神经网络中的全局平均池化层的权重对最后一个卷积层的特征图进行加权求和得到类激活图，将该类激活图中加权求和值较大的区域数据作为该类数据包的特征字段取出。

2.根据权利要求1所述的一种基于深度学习的流量识...

【专利技术属性】
技术研发人员：刘畅，
申请(专利权)人：上海乘安科技集团有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人