当前位置: 首页 > 专利查询>四川大学专利>正文

基于GCN-DL的加密流量网络威胁关键节点自动提取方法技术

技术编号:32630450 阅读:19 留言:0更新日期:2022-03-12 18:04
本发明专利技术公开了基于GCN

【技术实现步骤摘要】
基于GCN

DL的加密流量网络威胁关键节点自动提取方法


[0001]本专利技术涉及加密技术、网络技术等领域,具体的说,是基于GCN

DL的加密流量网络威胁关键节点自动提取方法。

技术介绍

[0002]目前,国内外研究者们对于加密流量网络威胁关键节点的提取研究较为深入,并采用了多种不同方法:
[0003]1、基于机器学习的恶意加密流量检测与网络威胁关键节点提取,2016年,Blake Anderson和David McGrew提供了第一个利用上下文信息(即DNS响应和HTTP头)来识别加密流量中的威胁[2]。该方法扩展了考虑数据omnia的方法,开发了监督机器学习模型,利用fow数据特征集,它使用关于fow和上下文流的详细信息,即DNS响应和HTTP头,以识别加密流量中的威胁。但是该算法使用的模型准确度欠佳,容易欠拟合。另外,该模型仍依赖于人工特征提取,人工提取的特征将很大程度上影响模型的学习能力,进而影响检测准确率。
[0004]2018年,Seth Alornyo等人[4]提出了使用基于身份的加密与平等测试的云计算加密流量分析。计算出元数据被发送到远程MAP服务器进行验证。如果发现匹配,则意味着机器学习分类器生成的匹配到标准的握手方案,因此密文被转发到云服务器进行存储,否则如果没有发现匹配,密文被拒绝。从而解决了由于恶意软件样本使用加密流量使得使用深度包检测(DPI)无效造成的一些问题。尽管Seth Alornyo等人验证了方案的可行性和有效性,但是在计算元数据时只考虑了加密数据的少数几个特征,没有考虑上下文、序列化等特征,不具备良好的泛化能力。
[0005]2020年Y Fang等人提出了一种基于随机森林的SSL/TLS加密恶意流量识别方法,以SSL/TLS加密方式收集恶意和良性流量数据作为数据集[9],技术框架分为五个层:数据层,特征层,模型层,识别层和备份层。数据层主要负责处理原始网络数据流。特征层将提取每个数据的统计特征作为记录。获取所有要素数据后,要素层会将数据分类到下一层作为建模数据集。模型层读取上层的建模数据集程序集。最后,机器学习模型将被传输到识别层以识别恶意加密流量。备份层是一个特定的层,可自动保存要素层中的建模数据集并直接为模型层提供建模数据。该方法的检测速度较慢,且真实结果可能被多个分类器掩盖,进而影响检测的准确率。
[0006]2、基于深度学习的恶意加密流量检测方法:
[0007]2018年,Zhuang Zou等人提出采用高效卷积神经网络(CNN)进行数据包特征提取,采用长短时记忆(LSTM)进行流级时间序列特征提取,可以自动提取数据包级别和流量级别的特征。其中系统输入可以是pcap文件或路由器上捕获的实际流量,在使用流量作为网络输入之前,需要将流量分成离散的单位。对于每个流,提取三个连续的数据包,经过数据预处理,生成了三个数据包图像。然后,将这三个数据包图像提供给卷积神经网络。卷积神经网络的输出被发送到LSTM,利用柔性LSTM单元实现递归神经网络,最后在LSTM输出端设置一个softmax层作为最终结果。
[0008]该算法从图像中提取特征时,计算量巨大,导致整个算法的时间复杂度高,检测效率低。
[0009]2019年,Tangda Yu等人提出基于multi

AEs(Autoencoder)的加密恶意流量检测系统[12]。结合了异常检测和加密流量检测技术,使用恶意沙箱收集流量数据,用标签标记恶意流和正常流,然后利用AEs的多层网络进行特征提取和分类器模型的训练,得到一个多类型的分类模型,便可以使用分类器模型来检测网络内部流量中其他类似的恶意行为。该系统在已有研究的基础上,分析了正常和恶意流量的密码协议从握手阶段到认证阶段的不同特征,并通过进一步向高维扩展流特征向量来提取流量特征以便更好地分类。该系统具有较高的检测精度和较低的丢失率。
[0010]但该算法的流量特征提取效果较差,进而导致其不具备良好的泛化能力。
[0011]上述两大类方法中(基于机器学习的恶意加密流量检测与网络威胁关键节点提取、基于深度学习的恶意加密流量检测方法)存在下述缺陷:
[0012]依赖人工特征提取,在攻击者更新代码后需要重新选择分类器的模型,否则检测准确率会快速下降,流量检测的可扩展能力、兼容性和稳健性都无法得到保证。同时,人工方式提取的特征并不能包含原始序列的所有信息,一些复杂的隐含特征可能和最终的结果具有很强的相关性很难通过特征工程提取。
[0013]当前的研究成果大都基于小规模流量的测试,应用于真实环境还有一定距离,无法保证其在进行大量流量检测时的扩展能力;项目成果的能力需要在不同环境下进行长时间验证其性能,保证其兼容性;并且,随着时间的推移,流量加密协议可能改变,需要进行系统更新,才能保证其准确性、鲁棒性和可扩展性。
[0014]参考文献:
[0015][2]Anderson B,McGrew D.Identifying encrypted malware traffic with contextual flow data[C]//Proceedings of the 2016 ACM workshop on artificial intelligence and security.2016:35

46。
[0016][4]Alornyo S,Asante M,Hu X,et al.Encrypted Traffic Analytic using Identity Based Encryption with Equality Test for Cloud Computing[C]//2018 IEEE 7th International Conference on Adaptive Science&Technology(ICAST).IEEE,2018:1

4。
[0017][9]Fang Y,Xu Y,Huang C,et al.Against Malicious SSL/TLS Encryption:Identify Malicious Traffic Based on Random Forest[C]//Fourth International Congress on Information and Communication Technology.Springer,Singapore,2020:99

115。
[0018][12]Yu T,Zou F,Li L,et al.An Encrypted Malicious Traffic Detection System Based on Neural Network[C]//2019 International Conference on Cyber

Enabled Distributed Comp本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于GCN

DL的加密流量网络威胁关键节点自动提取方法,其特征在于:包括下述步骤:1)数据预处理,将原始流量数据转换为改进的Efficientnet训练模型所需数据格式;2)数据训练,将经过预处理的数据输入到改进的Efficientnet训练模型中进行数据训练,实现输入数据为预处理后的二维灰度图像到输出数据为打好标签的数据的转换;3)特征提取,将经过改进的Efficientnet训练模型训练后的数据输入到GCN门框内进行自动化的数据特征提取。2.根据权利要求1所述的基于GCN

DL的加密流量网络威胁关键节点自动提取方法,其特征在于:所述数据预处理包括下述具体步骤:1.1)使用所有协议层次数据,根据五元组将原始流量包划分为会话;1.2)删除会话中与检测无关的信息;1.3)将会话长度固定为1024字节;1.4)根据改进的Efficientnet训练模型所需的输入分辨率,对固定长度的会话文件进行复制和迭代扩展,并将其转换为二维灰度图像,依次以png的格式存储;1.5)将灰度图像按9:1的比例划分为训练集和测试集。3.根据权利要求2所述的基于GCN

DL的加密流量网络威胁关键节点自动提取方法,其特征在于:所述五元组包括源IP地址、源端口、目的IP地址、目的端口及传输层协议;所述与检测无关的信息包括MAC地址、重复数据包、空数据包。4.根据权利要求1或2或3所述的基于GCN

DL的加密流量网络威胁关键节点自动提取方法,其特征在于:所述改进的Efficientnet训练模型包括改进的Efficientnet

B0层,使用MobileNet V2中的移动翻转瓶颈卷积模块作为模型的主要构造块,在此基础上用多目标神经架构搜索,其中,移动翻转瓶颈卷积模块是通过在深度可分离卷积的基础上,使用SENet中的压缩与激发方法进行优化而形成的;全局平均池化层,用于将特征图所有像素值相加求平均,得到一个用于表示对应特征图的数值,其不以窗口的形式取均值,而是以feature map为单位进行均值化;密集层,采用ReLU函数作为激活函数,用于得到长度为256的高阶特征向量,其中,ReLU函数的如式(1)所示:f(x)=max(0,x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),其中,x为进入神经元的来自上一层神经网络的输入向量...

【专利技术属性】
技术研发人员:杨进李静涵姜鑫涢倪胜巧梁刚梁炜恒
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1