一种基于深度学习策略的异常加密流量检测与分类方法技术

技术编号:24103253 阅读:29 留言:0更新日期:2020-05-09 14:09
本发明专利技术提出了一种基于深度学习策略的异常加密流量检测与分类方法,既能对使用公有加密协议的已知类型异常加密流量进行在线快速识别,又能对使用私有加密协议的未知类型异常加密流量进行检测与分类。该方法利用相邻做差法对原始数据进行特征加强,利用加强后的数据集中带有协议标签的数据训练1dCNN(一维卷积神经网络)模型来对已知类型异常加密流量进行检测与分类,利用k‑means算法(k‑均值算法)对加强后的数据集中没有协议标签的未知类型异常加密流量进行分类。

An anomaly encryption traffic detection and classification method based on deep learning strategy

【技术实现步骤摘要】
一种基于深度学习策略的异常加密流量检测与分类方法
本专利技术属于异常加密流量检测
,具体涉及一种基于深度学习策略的异常加密流量检测与分类方法。
技术介绍
在网络安全领域,为了对异常加密流量采取相应措施,通常需要先从混合流量种识别出正常流量和异常加密流量。相对来说这是比较容易的,因为它是一个二分类问题,而且流量是否经过加密很容易就可以判断出来。在此基础上,正常流量和异常加密流量可能分别包含对应多种具体应用和协议的流量;在进行网络管理时,需要将混合流量按照不同的协议或应用具体划分。按发展历史异常加密流量检测技术分为三大类:第一种,基于端口检测,适合于传统网络环境中各种协议使用固定端口的情况,简单、直接、高效,并且不会涉及到用户隐私;第二种,基于深度包检测(DPI),检测数据包负载中的特征码从而识别流量协议;第三种,由于机器学习的强大能力,基于机器学习(ML)的网络协议识别技术越发热门,通过统计流量的宏观特征,而不是关注布局特征,进行流量的识别。这使得网络协议识别技术更加智能化,准确率更高,应用范围更广。从2004年开始,已经出现了将机器学习方法与网络协议分类结合到一起的尝试。其中,2004年,McGregor首先提出将机器学习运用到网络协议分类领域,他运用的是基于EM的无监督学习方法。利用这种方法,成功的尝试了对HTTP,FTP,SMTP,IMAP等协议进行分类。2005年,Zander使用贝叶斯分类器和EM构建模型分类器,提出了AutoClass。利用这个模型对8种网络协议进行了分类,平均分类准确率达到了80%以上。2005年,Moore使用机器学习方法尝试对网络协议进行分类。248个函数用于训练分类器并分类批量数据传输,实现超过90%的网络协议的平均分类准确度。但是该方法分类P2P网络流量的协议时准确率不尽人意,只有55%。2007年,Erman提出了半监督的网络协议分类方法,成功将分类准确率提高到了94%,实现了跨时代的进步。中国科学院的研究人员率先提出了基于FPGA的10千兆流并行实时处理系统。北邮的马严提出了基于多决策树的分类方法;国防科大教授孙志刚提出了基于BloomFilter的数据包分类方法。基于端口的检测方法简单、直接、高效,并且不会涉及到用户隐私,但由于现在新的协议已不再在IANA登记端口,并且很多协议采用动态端口,因此基于端口的检测方法已不再适用,只能作为一种辅助方法。基于深度包检测的方法理论上可以检测识别所有的协议,但是计算的时间和空间复杂度都很高,且会侵犯到用户隐私;并且需要维护当前所有协议的特征库,当出现新的协议时,需要更新数据库来同步新的协议;不能应对加密网络协议。Sherry等提出了一种新的DPI系统,可以直接检测加密的数据包载荷,检测过程不需解密数据包,可以保护了用户的隐私,但它只能处理HTTPS流量。目前研究较多的是基于机器学习的分类方法,从人工智能的角度看,基于端口和基于负载深度包的方法是基于规则的方法,它通过匹配预定义的硬编码规则来执行流量分类。机器学习方法是基于统计和行为的方法,它通过使用一组选择性特征从经验数据中提取模式来对流量进行分类。基于机器学习的方法更加智能化,准确率更高,应用范围更广;但也存在一定的缺陷,需要手工设计流量特征,然后进行特征提取,再进行分类,十分繁琐。自2012年Hinton课题组通过构建CNN网络AlexNet从而证明了深度学习的巨大潜力后,对于深度学习的研究呈爆发式增长。随着计算机性能的指数型增长,深度学习的实现变得简单,计算能力也有越发强悍的趋势。深度学习具有更多的网络层和更强大的复杂函数拟合函数。当数据集比较大时,深度学习算法较机器学习算法有明显的优势。面对大数据集时,深度学习算法可以更容易的进行数据扩展,对数据进行充分利用,以达到更高的分类精度;相对的,机器学习属于浅层模型,计算能力有限,想要提高模型分类精度往往需要更加复杂的方法,简单的增加数据量很难达到效果。深度学习算法不需要人工进行特征选择、提取;同时深度学习适应性强,易于迁移。
技术实现思路
本专利技术提出了一种基于深度学习策略的异常加密流量检测与分类方法,既能对使用公有加密协议的已知类型异常加密流量进行在线快速识别,又能对使用私有加密协议的未知类型异常加密流量进行检测与分类。本专利技术通过以下技术方案实现:一种基于深度学习策略的异常加密流量检测与分类方法,包括:利用相邻做差法对原始数据进行特征加强,利用加强后的数据集中带有协议标签的数据训练1dCNN(一维卷积神经网络)模型,利用k-means算法对加强后的数据集中没有协议标签的数据进行分类。所述利用相邻做差法对原始数据进行特征加强,具体包括:获取数据集后进行图像化处理,再采用相邻做差法将所述数据集中的流量数据相邻字节做差值。所述利用加强后的数据集中带有协议标签的数据训练1dCNN模型,其中所述的1dCNN模型具体依次包括:输入层、卷积层、池化层、卷积层、池化层、全连接层、输出层;所述输入层输入一维流量数据。所述k-means算法模型采用改进的k-means算法模型,具体改进点在于:对于数据集中的样本点,如果该点的密度Density(X)小于β与数据集密度标准差SDensity(X)乘积时,称该点为孤立点;对于数据集中的样本点,如果该点的密度Density(X)大于α与数据集密度标准差SDensity(X)乘积时,称该点为中心点;并通过中心点的个数来确定聚类的数目,即k的值等于中心点的数目s;其中,当K-means算法中k的值等于1时,0<α<1,0<β<1;当K-means算法中k的值大于等于2时,α>1,β>1。本专利技术的有益效果:1、本专利技术提出相邻做差法用于异常加密流量数据预处理,处理后的数据能够加快检测模型的训练速度,并且能够提高异常加密流量检测的准确率;2、本专利技术基于二维CNN模型,分析网络流量的特点,创新性的提出了1dCNN模型进行异常加密流量的检测与分类,1dCNN模型能够更好的学习到异常加密流量特征,实验验证,1dCNN模型在异常加密流量检测与分类上具有较二维CNN更好的效果;3、本专利技术对k-means算法做了改进,提出了中心点和孤立点新的定义方式,加入了调整参数α、β;利用改进的k-means算法构建分类器,对使用私有加密协议的未知类型异常加密流量进行检测与分类,能够提高分类器对数据中孤立点和中心点的判断的准确性,将未知类型异常加密流量按其协议类型划分不同类簇;4、相比于基于机器学习方法对异常加密流量进行检测与分类,本专利技术基于深度学习的方法绕过了人工特征选择、提取,更方便、更灵活,且避免了人工特征选择提取对于经验的依赖。实验表明,这种基于深度学习策略的方法可以有效准确地对已知类型异常加密流量进行检测与分类;同时,该方法具有学习和扩展的能力,可用于分类新的使用未知加密协议的未知类型异常加密流量。附图说明图1为本专利技术基于深度学习策略的异常加密流量检本文档来自技高网
...

【技术保护点】
1.一种基于深度学习策略的异常加密流量检测与分类方法,其特征在于,包括:利用相邻做差法对原始流量数据进行特征加强;利用加强后的数据集中带有协议标签的数据训练1dCNN模型,利用k-means算法对加强后的数据集中没有协议标签的数据进行分类。/n

【技术特征摘要】
1.一种基于深度学习策略的异常加密流量检测与分类方法,其特征在于,包括:利用相邻做差法对原始流量数据进行特征加强;利用加强后的数据集中带有协议标签的数据训练1dCNN模型,利用k-means算法对加强后的数据集中没有协议标签的数据进行分类。


2.如权利要求1所述的基于深度学习策略的异常加密流量检测与分类方法,其特征在于,所述利用相邻做差法对原始流量数据进行特征加强,具体包括:
获取数据集后进行图像化处理,再采用相邻做差法将所述数据集中图像化后的流量数据相邻字节做差值。


3.如权利要求2所述的基于深度学习策略的异常加密流量检测与分类方法,其特征在于,所述获取数据集采用以下方式:
捕获pcap包文件,去掉所述pcap包文件的文件头信息,将剩下的pcap包文件切分成独立的数据包,所述独立的数据包构成数据集。


4.如权利要求2或3所述的基于深度学习策略的异常加密流量检测与分类方法,其特征在于,所述采用相邻做差法将所述数据集中图像化后的流量数据相邻字节做差值采用以下方式:
获取异常加密流量平均值序列,然后将所述流量平均值序列相邻数据两两做差。


5.如权利要求1或2所述的基于深度学习策略的异常加密流量检测与分类方法,其特征在于,所述利用加强后的数据集中带有协议标签的数据训练1dCNN模型,其中所述1dCNN模型依次包括:输入层、卷积层、池化层、卷积层、池化层、全连接层、输出层;所述输入层输入一维流量数据。


6...

【专利技术属性】
技术研发人员:张继薛静锋肖恩赵小林单纯郭宇
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1