基于多特征序列的匿名网络流量分类方法及系统技术方案

技术编号:37356840 阅读:29 留言:0更新日期:2023-04-27 07:06
本发明专利技术提供了一种基于多特征序列的匿名网络流量分类方法及系统,包括:步骤S1:采集网络流量文件,提取特征,进行数据归一化和流序列生成;步骤S2:对提取到的特征进行重要性排序,获取流量序列中最重要的连续性特征对应的特征序列,并转化为频域特征向量;步骤S3:通过频域特征提取网络将频域特征向量转化为中间特征向量,并将流序列其他特征通过其他特征提取网络转化为中间特征向量;步骤S4:拼接中间特征向量,通过分类网络后得到不同类别的概率分布。本发明专利技术能够抽出匿名通信流序列中重要的连续性特征,并挖掘其频域上的隐含信息,充分发挥Transformer框架对于连续的数据的序列特征捕获能力。征捕获能力。征捕获能力。

【技术实现步骤摘要】
基于多特征序列的匿名网络流量分类方法及系统


[0001]本专利技术涉及网络安全、深度学习、匿名通信网络领域,具体地,涉及一种基于多特征序列的匿名网络流量分类方法及系统。

技术介绍

[0002]近年来,随着信息时代的发展,互联网所承载的服务越来越多,在互联网为人们带来便利的同时,也使得用户的各类隐私信息被收集,并在互联网中传输。以安全协议为代表的传统网络安全,主要侧重于对信息内容的保护,而对于同样重要的通信双方的身份信息却缺乏有效的保护。因此,在用户对于身份信息的保护需求日益增长的背景下,匿名通信技术应运而生。
[0003]匿名通信技术是一种通过采用数据转发、内容加密、流量混淆等措施来隐藏通信内容及关系的隐私保护技术,为了提高通信的匿名性,这些数据转发链路通常由多跳加密代理服务节点构成,所有服务节点共同构成了匿名通信网络。近年来,针对不同用户的需求,匿名通信技术已经发展出多种类型的匿名通信网络。例如洋葱路由(The Onion Router,Tor),基于Tor改进的大蒜路由(Invisible Internet Project,I2P),Freenet等,其中Tor的使用最为广泛,其使用用户数最多,规模最大,是近年来研究的热点。
[0004]然而,在匿名网络为合法用户提供更强大的隐私性的同时,它也被一些不法分子作为非法活动的载体和温床。因此,如何快速有效地完成网络流量分析,对于加强匿名网络的流量监管、维护网络空间安全具有重大的意义。
[0005]网络流量分析是指通过捕获网络中的数据包后,再通过其他手段对数据包进行分析并统计相关信息,进而诊断网络的运行状态,帮助监管者排查网络中存在的隐患,提高网络的防护能力。在匿名网络中,网络管理员可以通过监控网络中的流量信息,分析可能的恶意行为,并对流量进行分类,进而对恶意流量进行重定向,从而达到保护网络的目的。目前一般采用基于机器学习方法,如CNN、LSTM等来分类匿名流量,尽管这些方法能够自动提取流的特征,但是忽略了流之间的时空相关性,而Transformer框架能将一定时间范围内的多个连续流视为一个序列,并将该序列的特征作为输入数据,捕捉到流之间的关联关系和潜在的特征,实现更好的分类效果。
[0006]专利文献CN110059747B(申请号:CN201910314300.X)公开了一种网络流量分类方法,包括构建轻量级分类模型;所述构建轻量级分类模型包括如下步骤:S1:基于自步学习的深度神经网络流量去噪算法训练网络流量分类模型;S2:基于正则化损失知识蒸馏的模型压缩技术,将所述网络流量分类模型压缩成轻量级网络流量分类模型。但该专利技术没有抽出匿名通信流序列中重要的连续性特征,并挖掘其频域上的隐含信息。

技术实现思路

[0007]针对现有技术中的缺陷,本专利技术的目的是提供一种基于多特征序列的匿名网络流量分类方法及系统。
[0008]根据本专利技术提供的一种基于多特征序列的匿名网络流量分类方法,包括:
[0009]步骤S1:采集网络流量文件,提取特征,进行数据归一化和流序列生成;
[0010]步骤S2:对提取到的特征进行重要性排序,获取流量序列中最重要的连续性特征对应的特征序列,并转化为频域特征向量;
[0011]步骤S3:通过频域特征提取网络将频域特征向量转化为中间特征向量,并将流序列其他特征通过其他特征提取网络转化为中间特征向量;
[0012]步骤S4:拼接中间特征向量,通过分类网络后得到不同类别的概率分布。
[0013]优选地,在所述步骤S1中:
[0014]步骤S1.1:捕获流经设备的匿名网络流量数据包,捕获的数据包格式为pcap;
[0015]步骤S1.2:对采集到的数据集以预设时间跨度进行切割;
[0016]步骤S1.3:对所采集到并切割好的pcap文件进行特征提取,输出数据包的流特征值;
[0017]步骤S1.4:使用归一化算法将数据统一映射到[0,1]区间,归一化算法公式为:
[0018][0019]其中,μ为原始数据均值,σ为标准差,x为原始数据值,z为归一化后的新数据值;
[0020]步骤S1.5:选择Z个连续的流数据为一个块进行处理。
[0021]优选地,在所述步骤S2中:
[0022]步骤S2.1:对提取出的所有特征进行特征筛选,去除特征包括每个流数据的初始时间戳、最终时间戳、IP和TCP参数,保留预设个特征;
[0023]步骤S2.2:对筛选出的特征使用随机森林算法或主成分分析法计算每个特征的重要性,并根据重要性对特征进行排序;选择最重要的预设个特征;
[0024]步骤S2.3:对选择的特征,分别记为特征d,e,对Z个连续的流数据,分别构建Z维的特征向量,构建长度为Z的特征序列{d[n]}
0≤n<N
与{e[n]}
0≤n<N
,此处N=Z;将特征序列转化为频域特征向量,计算公式为:
[0025][0026]将变换结果组合为频域特征向量及将频域特征向量分别作为Transformer框架的编码器的输入,输出2个1
×
n的特征向量,通过MLP映射为2个1
×
h的特征向量,其中h为自定义参数,拼接为1
×
2h的中间特征向量a。
[0027]优选地,在所述步骤S3中:
[0028]对于未选择的其他特征,选择重要性位于前预设个的特征,对于所述的Z个连续的流数据,构建Z个1
×
20的向量,通过DNN映射为Z个1
×
h的向量,拼接后输入均值或最值池化层,得到1
×
h的中间特征向量b。
[0029]优选地,在所述步骤S4中:
[0030]对于输出的中间特征向量a,b,拼接后通过MLP映射为一个1
×
p最终特征向量,此处p为最终分类的类别数目,接着用softmax函数计算得到概率分布,根据概率分布确定分类结果。
[0031]根据本专利技术提供的一种基于多特征序列的匿名网络流量分类系统,执行所述的基于多特征序列的匿名网络流量分类方法,包括:
[0032]匿名网络流序列采集及预处理模块:通过数据流采集工具采集流经硬件设备的网络数据流,分割数据流后分析提取出数据流中的特征信息;
[0033]特征主成分分析及频域特征提取模块:通过特征选择方法对生成的流量进行特征预处理,对于符合预设标准的时域特征提取频域特征,将提取的频域特征序列,输入编码器获取中间特征向量;
[0034]其他特征提取模块:将预设标准以外的其他特征序列分别获取在高维空间中的嵌入,并将嵌入整合为矩阵,输入均值或最值池化层后,将其抽象为一个中间特征向量;
[0035]分类结果输出模块:整合中间向量,得到最终分类向量。
[0036]优选地,在所述匿名网络流序列采集及预处理模块中:
[0037]使用流量捕获工具,捕获完成后使用流量分析工具完成特征提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多特征序列的匿名网络流量分类方法,其特征在于,包括:步骤S1:采集网络流量文件,提取特征,进行数据归一化和流序列生成;步骤S2:对提取到的特征进行重要性排序,获取流量序列中最重要的连续性特征对应的特征序列,并转化为频域特征向量;步骤S3:通过频域特征提取网络将频域特征向量转化为中间特征向量,并将流序列其他特征通过其他特征提取网络转化为中间特征向量;步骤S4:拼接中间特征向量,通过分类网络后得到不同类别的概率分布。2.根据权利要求1所述的基于多特征序列的匿名网络流量分类方法,其特征在于,在所述步骤S1中:步骤S1.1:捕获流经设备的匿名网络流量数据包,捕获的数据包格式为pcap;步骤S1.2:对采集到的数据集以预设时间跨度进行切割;步骤S1.3:对所采集到并切割好的pcap文件进行特征提取,输出数据包的流特征值;步骤S1.4:使用归一化算法将数据统一映射到[0,1]区间,归一化算法公式为:其中,μ为原始数据均值,σ为标准差,x为原始数据值,z为归一化后的新数据值;步骤S1.5:选择Z个连续的流数据为一个块进行处理。3.根据权利要求1所述的基于多特征序列的匿名网络流量分类方法,其特征在于,在所述步骤S2中:步骤S2.1:对提取出的所有特征进行特征筛选,去除特征包括每个流数据的初始时间戳、最终时间戳、IP和TCP参数,保留预设个特征;步骤S2.2:对筛选出的特征使用随机森林算法或主成分分析法计算每个特征的重要性,并根据重要性对特征进行排序;选择最重要的预设个特征;步骤S2.3:对选择的特征,分别记为特征d,e,对Z个连续的流数据,分别构建Z维的特征向量,构建长度为Z的特征序列{d[n]}
0≤n<N
与{e[n]}
0≤n<N
,此处N=Z;将特征序列转化为频域特征向量,计算公式为:将变换结果组合为频域特征向量及将频域特征向量分别作为Transformer框架的编码器的输入,输出2个1
×
n的特征向量,通过MLP映射为2个1
×
h的特征向量,其中h为自定义参数,拼接为1
×
2h的中间特征向量a。4.根据权利要求1所述的基于多特征序列的匿名网络流量分类方法,其特征在于,在所述步骤S3中:对于未选择的其他特征,选择重要性位于前预设个的特征,对于所述的Z个连续的流数据,构建Z个1
×
20的向量,通过DNN映射为Z个1
×
h的向量,拼接后输入均值或最值池化层,得到1
×
h的中间特征向量b。5.根据权利要求1所述的基于多特征序列的匿名网络流量分类方法,其特征在于,在所述步骤S4中:
对于输出的中...

【专利技术属性】
技术研发人员:黄浩铭王轶骏薛质
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1