基于生成对抗网络的网络背景流量生成方法技术

技术编号:35444581 阅读:11 留言:0更新日期:2022-11-03 11:56
本发明专利技术提出了一种基于生成对抗网络的网络背景流量生成方法,实现步骤为:1)获取训练样本集和测试样本集;2)构建M个生成对抗网络模型;3)对生成对抗网络模型进行迭代训练;4)获取预测流量数据流特征;5)获取网络背景流量生成结果。本发明专利技术通过提取每组中所有原始流量数据包的统计特征组成的数据流对生成对抗网络模型进行训练,能学习到目标网络流量的多维数据流级统计特征,将下一条数据流应用类别作为一个特征学习用户节点不同应用流量之间的相关性和用户行为习惯,使具有特殊身份信息的节点发送的流量与正常流量非常接近,更加精确的描述了真实数据流的特征,有效提高了隐蔽通信系统的安全性。信系统的安全性。信系统的安全性。

【技术实现步骤摘要】
基于生成对抗网络的网络背景流量生成方法


[0001]本专利技术属于网络安全
,涉及一种网络背景流量生成方法,具体涉及一种基于生成对抗网络的网络背景流量生成方法,可用于生成网络背景流量。

技术介绍

[0002]互联网中的通信节点在使用网络应用进行通信时需要进行流量数据包的交互,攻击者使用网络流量分类技术可以对通信节点流量数据包进行分类以实施流量拦截。因此能绕过攻击者流量分析的背景流量生成技术的研究具有重要意义。
[0003]网络流量生成技术可用于模拟真实网络流量从而实现该节点的隐蔽通信。网络流量生成方法主要包括基于统计模型的网络流量生成方法和基于流量特征的网络流量生成方法两种。
[0004]基于统计模型的网络流量生成方法主要使用马尔可夫模型、泊松分布模型等统计模型搭配流量生成工具进行流量生成,这种方法主要在互联网压力测试时进行背景网络流量生成。缺点是基于简单的概率模型很难在现今网络流量数量庞大的条件下模拟流量数据包之间的关系,而复杂概率模型的建立非常困难。
[0005]基于流量特征的网络流量生成方法根据流量特征的粒度分为数据包(packet)级别和数据流(flow)级别。基于数据包级特征的流量生成方法主要关注数据包的统计特征及其到达过程,该方法只考虑单个数据包的基本特征,没有考虑各种数据包之间的相互影响、忽略了协议间和单种协议内部的流量特征,生成的流量逼真度低。基于数据流级的流量生成主要关注数据流的特征及其到达过程。数据流通常指一个由源IP地址、源端口、目的IP地址、目的端口组成的四元组。缺点是缺少与用户行为习惯、不同应用流量相关性、时间维度等方面的特征,从而被攻击者从该角度对用户节点进行分析。基于流量特征的网络流量生成方法主要借助机器学习技术对数据流进行特征提取作为神经网络的训练样本集,然后搭建神经网络进行迭代训练,最终对网络流量特征进行模拟输出,再使用流量生成工具根据模拟得到的网络流量特征生成初始数据包序列,并将用户需要发送的数据加密后嵌入至初始数据包序列生成一条网络流量。
[0006]生成对抗网络能够对流量特征进行模拟,使得生成器网络模拟得到的流量特征的概率分布在统计特性上与训练样本集非常相近,因此生成对抗网络在网络流量生成方面的应用具有重要意义,如申请公布号为CN113542271A,名称为“基于生成对抗网络GAN的网络背景流量生成方法”的专利申请,公开了一种基于生成对抗网络GAN的网络背景流量生成方法,该方法提取预先收集的不同应用的网络流量数据包样本集的数据包级特征,送入生成对抗网络模型库中对应的生成对抗网络模型进行迭代训练,然后从训练好的生成对抗网络模型库中随机选取一个生成对抗网络,使用选取的一个生成对抗网络的生成器网络生成模拟背景流量进行发送。但其存在的不足在于,每次生成背景流量只使用随机选取的一个生成对抗网络,没用考虑时间维度上用户使用网络应用的习惯,攻击者可以由此检测出隐蔽流量,进而发现隐蔽通信节点,会导致网络背景流量生成的安全性较低。而且使用的生成对
抗网络采用基于数据包级特征的流量生成方法,只使用网络流量的数据包级特征对流量进行表示,没有考虑各种数据包之间的相互影响,生成的流量逼真度低,影响了安全性和可靠性的提升。

技术实现思路

[0007]本专利技术的目的在于克服上述现有技术存在的缺陷,提出了一种基于生成对抗网络的网络背景流量生成方法,用于解决现有技术中存在的安全性和可靠性较低的技术问题。
[0008]为实现上述目的,本专利技术采取的技术方案包括如下步骤:
[0009](1)获取训练样本集X
train
和测试样本集X
test

[0010](1a)将通信节点在互联网通信时连续发送的包括M种网络应用的S个原始流量数据包划分为N组,每组包括一次通信过程中源IP地址、源端口、目的IP地址、目的端口均相同的多个原始流量数据包,并提取每组中所有原始流量数据包的统计特征组成数据流,得到包括N条数据流的数据流集合F={F1,F2,...,F
n
,...,F
N
},其中,M≥2,S≥10000,F
n
表示第n条包含刻画不同网络流量相关性的下一条数据流应用类别特征的数据流;每种网络应用至少对应一条数据流,每条数据流对应一种网络应用;
[0011](1b)对每条数据流F
n
的非数字特征进行独热编码,并对独热编码结果进行归一化,得到预处理后的数据流集合然后使用网络应用类别标签对每条数据流进行标记,得到对应的网络应用类别标签集合y={y1,y2,...,y
n
,...,y
N
},再将其中的N1条数据流及其对应的标签组成训练样本集X
train
,将剩余的N2条数据流及其对应的标签组成测试样本集X
test
,其中N1>1/2N,N=N1+N2;
[0012](2)构建M个生成对抗网络模型:
[0013]构建包括与网络应用种类相同的M个并行排布的生成对抗网络模型C={C1,C2,...,C
m
,...,C
M
},每个生成对抗网络C
m
包括依次级联的生成器网络G
m
和判别器网络D
m
,其中,C
m
表示第m种网络应用对应的生成对抗网络,生成器网络G
m
包括层叠的输入层、多个第一全连接层和tanh激活函数输出层;判别器网络D
m
包括层叠的输入层、多个第二全连接层和sigmoid激活函数输出层;
[0014](3)对生成对抗网络模型库进行迭代训练:
[0015](3a)初始化每个生成对抗网络模型C
m
中生成器网络G
m
、判别器网络D
m
的网络参数分别为迭代次数为q,最大迭代次数为Q,Q≥10000,并令q=0;
[0016](3b)将训练样本集X
train
作为M个并行排布的生成对抗网络模型的输入,每个生成对抗网络模型C
m
中生成器网络G
m
对X
train
中标签为m的K个数据流中的每一个进行特征预测,得到C
m
对应的预测数据流特征集合其中,K<N1;
[0017](3c)判别器网络D
m
分别计算每个与每个来源于训练样本集X
train
的概率,得到对应的概率集合与X
train
中标签为m的K个数据流的对应概率集合D2={d1,d2,...,d
k
,...,d
K
},其中,表示经过生成器网络G
m
预测得到的数据流特征,
表示判别器网络D
m
计算来源于样本集合X
train
且标签为m的概率,d
k
表示判别器网络D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的网络背景流量生成方法,其特征在于,包括如下步骤:(1)获取训练样本集X
train
和测试样本集X
test
:(1a)将通信节点在互联网通信时连续发送的包括M种网络应用的S个原始流量数据包划分为N组,每组包括一次通信过程中源IP地址、源端口、目的IP地址、目的端口均相同的多个原始流量数据包,并提取每组中所有原始流量数据包的统计特征组成数据流,得到包括N条数据流的数据流集合F={F1,F2,...,F
n
,...,F
N
},其中,M≥2,S≥10000,F
n
表示第n条包含刻画不同网络流量相关性的下一条数据流应用类别特征的数据流;(1b)对每条数据流F
n
的非数字特征进行独热编码,并对独热编码结果进行归一化,得到预处理后的数据流集合然后使用网络应用类别标签对每条数据流进行标记,得到对应的网络应用类别标签集合y={y1,y2,...,y
n
,...,y
N
},再将其中的N1条数据流及其对应的标签组成训练样本集X
train
,将剩余的N2条数据流及其对应的标签组成测试样本集X
test
,其中N1>1/2N,N=N1+N2;(2)构建M个生成对抗网络模型:构建包括与网络应用种类相同的M个并行排布的生成对抗网络模型C={C1,C2,...,C
m
,...,C
M
},每个生成对抗网络C
m
包括依次级联的生成器网络G
m
和判别器网络D
m
,其中,C
m
表示第m种网络应用对应的生成对抗网络,生成器网络G
m
包括层叠的输入层、多个第一全连接层和tanh激活函数输出层;判别器网络D
m
包括层叠的输入层、多个第二全连接层和sigmoid激活函数输出层;(3)对生成对抗网络模型进行迭代训练:(3a)初始化每个生成对抗网络模型C
m
中生成器网络G
m
、判别器网络D
m
的网络参数分别为迭代次数为q,最大迭代次数为Q,Q≥10000,并令q=0;(3b)将训练样本集X
train
作为M个并行排布的生成对抗网络模型的输入,每个生成对抗网络模型C
m
中生成器网络G
m
对X
train
中标签为m的K个数据流中的每一个进行特征预测,得到C
m
对应的预测数据流特征集合其中,K<N1;(3c)判别器网络D
m
分别计算每个与每个来源于训练样本集X
train
的概率,得到对应的概率集合与X
train
中标签为m的K个数据流的对应概率集合D2={d1,d2,...,d
k
,...,d
K
},其中,表示经过生成器网络G
m
预测得到的数据流特征,表示判别器网络D
m
计算来源于样本集合X
train
且标签为m的概率,d
k
表示判别器网络D
m
计算来源于样本集合X
train
且标签为m的的概率;(3d)采用交叉熵损失函数,通过计算生成器网络G
m
的损失同时通过和d
k
计算判决器网络D
m
的损失并采用反向传播方法,通过计算生成器网络G

【专利技术属性】
技术研发人员:董庆宽穆涛陈原任晓龙杨福兴马飞龙
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1