一种基于端到端序列网络的加密流量分类方法技术

技术编号:21251403 阅读:33 留言:0更新日期:2019-06-01 09:21
本发明专利技术提供了一种基于端到端序列网络的加密流量分类方法,主要思想是从加密流量的序列特性出发,借助循环神经网络可以保留一段时间内信息的特性,以从加密流量序列中深入挖掘有效上下文信息,并且结合有监督的分类和无监督的重构机制,增强产生特征的区分性。本发明专利技术还提供了一种计算机装置,该计算机可执行计算机程序,所述计算机程序执行本发明专利技术方法所述的各项步骤。本发明专利技术还提供一种计算机程序存储装置,该计算机程序执行本发明专利技术方法所述的各项步骤。本发明专利技术提供的上述方法及装置具有自动学习、一体化学习、关键信息留存及泛化性等优点。

An Encrypted Traffic Classification Method Based on End-to-End Sequential Networks

The invention provides an encryption traffic classification method based on end-to-end sequential network. The main idea is to start from the sequence characteristics of encryption traffic and retain the characteristics of information for a period of time by means of cyclic neural network, so as to dig in-depth effective context information from the encrypted traffic sequence, and to enhance the generation characteristics by combining supervised classification and unsupervised reconstruction mechanism. Distinguishability. The invention also provides a computer device which can execute a computer program that executes the steps described in the method of the invention. The invention also provides a computer program storage device, which executes the steps described in the method of the invention. The method and device provided by the invention have the advantages of automatic learning, integrated learning, key information retention and generalization, etc.

【技术实现步骤摘要】
一种基于端到端序列网络的加密流量分类方法
:本专利技术属于网络安全
,涉及一种网络流量分类方法,尤其涉及一种基于端到端序列网络的加密流量分类方法。
技术介绍
:网络流量分类一直是网络管理和网络空间安全面临的重要任务。网络管理方面,为保证网络的服务质量和用户的上网体验,大量复杂的流量需要按需分类,进而采用不同的优先级策略进行处理。在网络空间安全方面,入侵检测是保证用户上网安全的关键步骤,在被动流经的网络流量中,恶意网络流量需要从用户合法网络流量中识别并过滤。近几年,为保护用户的通讯隐私,加密技术逐渐用于网络通信中,这使得大量应用采用加密通讯,致使加密流量迅猛增加。面对海量并且不断增长的加密流量,传统的基于规则的方法不能对其有效识别和分类。其主要原因在于,经过加密算法和加密因子的随机化处理后,通讯内容被加密成为随机化的密文,并且根据密码学原理,密文难以在短时间内被破解,因此无法利用基于载荷的方法进行匹配识别。而加密流量在给用户带来安全通讯的同时,也给许多不法分子带来可乘之机,这使得网络监管部门难以有效识别和处理。因此,如何分类加密流量成为研究热点,也引起了学术界和工业界的广泛关注。目前针对加密流量分类问题,方法大致可分为2类:1、基于统计属性结合传统机器学习算法:尽管加密流量负载不能被有效解密,但是可以利用加密流量中握手阶段的明文字段和流量的统计属性帮助进行分类。目前加密流量可以使用到的信息可以分为3个大的层面:1)加密流量的底层原始信息:包括原始数据流中源/目的端口、单向/双向通信的包数,单向/双向通信的字节数及流的持续时间等。2)包层面的信息:包括如握手阶段的version、ciphersuites及extension等和每个包的属性信息如状态和包长度等。3)流层面的信息:包括a)序列信息:长度序列,时间间隔序列和状态序列等,b)统计信息:包括字节分布,包长度、时间间隔的平均值,标准差,最大值,最小值等统计信息。这些信息可以直接作为机器学习分类模型的输入,或者采用主成分分析等方法进行维度约减后作为输入,又或者通过寻找信息之间的关联性(如序列性)先人工构造特征再作为输入,最后分类。这种方法存在两点缺陷:1)特征构造很大程度依赖于专业知识(加密流量解析后可以提取哪些信息用于分类)和丰富的经验(如何将提取的原始信息进行关联从而构造有效的分类特征)。2)当分类结果不佳时,不能根据分类结果自动反馈特征学习的方向,需要人工调整特征构造方法,并反复测试。3)分类结果和特征构造分阶段进行,不能保证达到整体的最优结果。2、基于负载结合深度学习算法深度学习算法在图像和自然语言处理研究上有突出的表现,其具有自动学习和反馈等多方面优点也让研究人员试图将其应用到加密流量分类的任务上。目前存在的方法普遍使用加密流量的应用负载作为深度学习算法的输入进行分类,虽然可以在行为层面进行粗分类,但是考虑到加密流量负载的随机化特性,使用加密负载作为输入并不是足够理想的。此外,对于深度学习模型的选择,目前普遍使用训练速度快的卷积神经网络,并且将加密流量组合成二维度的图像,但是这种情况并没有很好的结合加密流量的序列特性,并且转化成多大的图像也需要深入的思考和测试。
技术实现思路
:本专利技术的目的在于提供一种基于端到端序列网络的加密流量分类方法,利用加密流量的流序列特性,以有效地对加密流量进行分类。本专利技术还提供一种计算机装置,该计算机可执行计算机程序,所述程序执行本专利技术方法的各项步骤。本专利技术的基于端到端序列网络的加密流量分类方法,其步骤包括:1、采集带标签的加密流量,得到每个加密流的序列信息以及对应的标签数据;2、将得到的序列信息中的每个元素进行多维嵌入,生成该序列信息的嵌入矩阵;3、将嵌入矩阵输入通过GatedRecurrentUnit(GRU,门控递归单元)构建的双向编码结构中,并进行多层堆叠编码;4、串联多层堆叠编码结果形成该序列信息的编码特征表示向量;5、将编码特征表示向量输入GRU构建的多层堆叠的双向解码结构中,解码得到解码特征表示向量,分类后与序列信息进行拟合,得到重构损失函数L1;6、将编码特征表示向量和解码特征表示向量合并作为最终特征向量,分类后与标签数据拟合,得到分类损失函数L2;7、对L=L1+L2进行最小化处理,迭代形成稳定L后得到流序列网络分类模型F;8、提取待分类的加密流量的序列信息,通过上述流序列网络分类模型F进行分类。本专利技术方法将所述序列信息转换为可计算的数值形式。所述序列信息包括长度序列信息,状态序列信息和时间序列信息。本专利技术采用设定的Dropout(一种防止神经网络过拟合的方法,请参见http://jmir.org/papers/v15/srivastava14a.html)概率以免过拟合。本专利技术还提供一种计算机装置,该计算机可执行计算机程序,所述计算机程序执行本专利技术方法所述的各项步骤。本专利技术还提供一种计算机程序存储装置,该计算机程序执行本专利技术方法所述的各项步骤。本专利技术的主要思想是从加密流量的序列特性出发,借助循环神经网络可以保留一段时间内信息的特性,以从加密流量序列中深入挖掘有效上下文信息,并且结合有监督的分类和无监督的重构机制,增强产生特征的区分性。本专利技术的方案旨在结合加密流量的序列特性,设计并构建深度学习模型,加强对序列信息的信息关联和特征提取能力。具体表现在(1)基于循环神经网络对序列信息具有记忆保存能力、泛化能力和特征挖掘能力,将其应用在加密流量分类场景中。(2)基于自动编码机对信息的压缩、提取和凝练的能力,构建编码和解码层的深度学习网络结构,从而生成特征的表现力。(3)在使用传统有监督的反馈学习同时,引入无监督的信息重构机制,让生成的特征尽可能的还原原始序列信息,从而加强产生特征保存原始信息的能力。本专利技术的特点在于:1)对加密流量中的序列信息采用嵌入表示,即将序列中的每个元素都对应成一个向量,通过学习每个元素对应的向量来增强特征的表示性。2)采用自动编码机的思想,构建编码-解码结构,将原始序列信息先进行信息压缩再还原,提高生成特征的鲁棒性。3)引入重构机制,让生成的解码特征表示向量能够尽可能的拟合原始输入,加强特征对原有信息的保存能力,增加特征的区分性。4)不同于传统神经网络仅使用解码特征表示向量进行分类,本方案使用编码特征表示向量和解码特征表示向量共同作为分类特征,提高分类精确性。利用本专利技术方法在对加密应用进行加密流量分类时,具有以下优点:1)自动学习特征:使用流的原始序列信息作为循环神经网络的输入,在无需人工构建特征的前提下,可以深入挖掘和提取原始序列信息中对于加密流量分类有价值的特征。2)一体化学习:本专利技术通过构建端到端序列网络模型,将特征工程和分类过程集成一体化,利用分类的结果指导特征表达的学习过程,可以保证分类结果达到最优解。3)关键信息留存:在2)的基础上,使用解码特征表示向量重构原始流序列信息,在保证提取的特征可以保留关键原始信息的同时,加强特征向量的表达能力。4)泛化性:对于输入的序列信息具有包容性,即加密流量的长度序列,状态序列和时间序列等信息,只要合理地转化成可计算的数值形式,即可作为输入。附图说明:图1是采用本专利技术方法的端到端序列网络结构框图具体实施方式:以下结合附图,本文档来自技高网
...

【技术保护点】
1.一种基于端到端序列网络的加密流量分类方法,其步骤包括:1)、采集带标签的加密流量,得到每个加密流的序列信息以及对应的标签数据;2)、将得到的序列信息中的每个元素进行多维嵌入,生成该序列信息的嵌入矩阵;3)、将嵌入矩阵输入通过GRU构建的双向编码结构中,并进行多层堆叠编码;4)、串联多层堆叠编码结果形成该序列信息的编码特征表示向量;5)、将编码特征表示向量输入GRU构建的多层堆叠的双向解码结构中,解码得到解码特征表示向量,分类后与序列信息进行拟合,得到重构损失函数L1;6)、将编码特征表示向量和解码特征表示向量合并作为最终特征向量,分类后与标签数据拟合,得到分类损失函数L2;7)、对L=L1+L2进行最小化处理,迭代形成稳定L后得到流序列网络分类模型F;8)、提取待分类的加密流量的序列信息,通过上述流序列网络分类模型F进行分类。

【技术特征摘要】
1.一种基于端到端序列网络的加密流量分类方法,其步骤包括:1)、采集带标签的加密流量,得到每个加密流的序列信息以及对应的标签数据;2)、将得到的序列信息中的每个元素进行多维嵌入,生成该序列信息的嵌入矩阵;3)、将嵌入矩阵输入通过GRU构建的双向编码结构中,并进行多层堆叠编码;4)、串联多层堆叠编码结果形成该序列信息的编码特征表示向量;5)、将编码特征表示向量输入GRU构建的多层堆叠的双向解码结构中,解码得到解码特征表示向量,分类后与序列信息进行拟合,得到重构损失函数L1;6)、将编码特征表示向量和解码特征表示向量合并作为最终特征向量,分类后与标签数据拟合,得到分类损失函数L2;7)、对L=L1+L2进行最小化处理,迭代形成稳定L后得到流序列网络分类模型F;8)、提取待分类的加密流量的序列信息,通过上述流序列网络分类模型F进行分类。2.如权利要求1所述的基于端到端序列网络的加密流量分类方法,其特征在于,所述序列信息转换为可计算的数值形式。3.如权利要求1或者2所述的...

【专利技术属性】
技术研发人员:杨青娅李镇郭莉刘畅管洋洋李真真熊刚
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1