一种基于辅助分类式生成对抗网络的网络攻击流量生成方法技术

技术编号:29402180 阅读:14 留言:0更新日期:2021-07-23 22:39
本发明专利技术公开设计了一种基于辅助分类式生成对抗网络的网络攻击流量生成方法,该方法利用生成式对抗网络的原理能够实现根据已有的网络攻击流量数据集样本,来生成能够欺骗和逃避防御系统检测的恶意流量样本。本发明专利技术包括:多源异构数据融合处理模块,负责定义一种统一的数据格式;生成器网络,负责根据高斯噪声和来自判别器的反馈来生成网络统计流量样本;判别器网络,负责对生成器生成的攻击流量样本和原始网络流量样本进行分析,包括真伪分析和攻击流量类别分析;分类微调模块,负责调试生成模型生成特定类型流量样本的性能。本发明专利技术通过构造基于辅助分类式生成对抗网络的网络攻击流量生成模型,在生成网络流量时能够根据网络攻击的类型来生成特定类型的网络攻击流量样本,通过生成此类对抗样本可以模拟网络攻击来检测现有入侵检测系统的鲁棒性,为现有的流量生成器提供了新思路。

【技术实现步骤摘要】
一种基于辅助分类式生成对抗网络的网络攻击流量生成方法
本专利技术涉及网络安全和工业互联网网络仿真领域,具体设计了一种基于辅助分类式生成对抗网络的网络攻击流量生成方法。
技术介绍
随着对工业互联网架构研究与应用的不断深入,与实际情况相符的流量模型在新的网络架构的性能评估中的关键作用变得越来越明显,建设复杂的多行业工业互联网流量特性的安全测试流量模拟器势在必行。由于工业互联网应用场景复杂、专用协议众多、流量数据规模巨大,为了保障工业互联网设备、控制、网络、平台、数据安全,需加强针对工业互联网的安全测试工作。工业互联网网络数据流量测试是工业互联网安全测试重要手段之一。工业互联网行业场景、网络协议的特殊性对目前的流量仿真工具提出了严峻的挑战。传统的网络仿真工具(如Cloudsim、OPNET等)流量建模方式专注于特定应用的流量模型与简化的流量混合,不能按照不同工业行业应用场景的需要给用户提供更多关于虚拟设备数据产生参数和网络参数配置。而且一般只支持建模仿真数量有限的虚拟设备和特定的网络环境,对复杂的工业应用场景的仿真表现有待提高。同时,这些仿真工具在实际仿真过程中消耗的时间过长,一个简单应用场景的仿真由于没有仿真时间压缩机制可能需要非常久的时间,仿真效率明显不足。随着对抗生成网络的兴起和发展,GAN被应用于多种领域,包括语音生成、图像生成、文本生成等等。但在许多实际场景中,有标注数据其实只占少数,而大量无标签数据更容易获取。因此,衍生出半监督学习,以同时利用少量标签数据与大量无标签数据进行协同训练,从而实现对未标签数据的分类问题。而对于生成对抗网络训练中的真实数据集,可以被看作有标签数据,而由生成器随机生成的数据则可以被看作是无标签数据,基于此思路衍生的变体中比较典型的有辅助分类式生成对抗网络。辅助分类式生成对抗网络,接近于CGAN和SGAN两者的结合体,其中生成器同时输入标签分类信息C~Pc和随机噪声z,得到生成数据Xfake=G(c,z),而判别器分别要输出判断输入样本是否为真实数据的概率分布P(S|X)以及输入样本对于分类标签的概率分布P(C|X)。因此辅助分类式生成对抗网络的目标函数包含两部分,第一部分是Ls是判断数据真假的代价函数,第二部分Lc则是针对分类准确性的代价函数,如下式所示:Ls=E[logP(S=real|Xreal)]+E[logP(S=fake|Xfake)]Lc=E[logP(C=c|Xreal)]+E[logP(C=c|Xfake)]于是,训练辅助分类式生成对抗网络的过程中,优化方向是希望训练判别器能够使得Ls+Lc最大,而生成器Ls-Lc最小。对应的物理意义是希望判别器能够尽可能地区分真实数据和生成数据,并且能够有效地对数据进行分类,对于生成器来说,则是希望生成数据尽可能地被认为是真实数据且都能够被有效的分类。
技术实现思路
本专利技术主要提出了一种基于辅助分类式的生成对抗网络来生成网络攻击流量的方法,主要通过生成器网络生成流量数据,通过判别器网络和生成器网络的分类微调模块来判断生成器网络生成数据的真伪和性能。本专利技术提出了一种基于辅助分类式的生成对抗网络来生成网络攻击流量的方法,主要包括以下内容:1)多源异构网络流量融合。多源异构网络流量融合阶主要是将将不同的网络包格式如PCAP格式,NETFLOW格式,CFLOW格式,JFLOW格式及SFLOW格式的数据文件进行特征提取和统一的定义与标注来定义一种通用的数据格式,将统一格式后的数据用于生成模型的训练与数据的生成。2)网络攻击流量生成模型和训练方法。生成器结构为两个全连接层和两个转置卷积来模拟样本的生成,在每一层后都有BN(批量归一化)处理;判别器结构为两个转置卷积层和两个全连接层,在顺序上和流量生成器正好相反,同时判别器的输出层使用Softmax来实现流量样本的多分类,其中分类的个数需要根据输入数据中网络攻击的类型确定;所使用损失函数包括两部分:真伪判别损失和分类判别损失,在本专利技术中将两者都设置为了交叉熵损失函数;3)生成模型的分类微调模块。分类微调模块使用卷积神经网络,模型采用一个输入层,三个卷积层,三个池化层,一个扁平层和两个全连接层,卷积层的激活函数为ReLU,全连接层的激活函数为Softmax用于判断生成模型生成特定类型数据的性能;本专利技术在减小所需的数据集的标注工作量的同时具有所生成流量的准确性高和能同时生成多种不同攻击类型的流量的优点。本专利技术与现有方法相比主要创新之处在于:1、本专利技术定义一种多源异构融合数据格式,用于处理来自不同设备及具有不同文件格式的原始数据文件。2、本专利技术在辅助生成对抗网络中使用一个复合损失函数来指导生成流量过程的训练,加快了训练速度,提高了生成流量和分类流量的质量。3、本专利技术在判别器的输出层使用Softmax来实现流量样本的多分类,来同时达到生成数据和分类数据的目的。4、本专利技术在生成模块后添加了一个分类微调模块用于来调试生成模型来提高生成特定攻击类型流量样本的性能。本专利技术采用辅助分类式生成对抗网络方法实现工业互联网安全测试流量模拟器,完成业务场景流量模拟、攻击流量生成等功能,本专利技术在验证阶段使用了KDD’99数据集模拟生成了包含Probe攻击,Dos攻击,U2R攻击和R2L攻击等10余种常见的针对工业互联网的网络攻击流量,为安全测试系统提供流量数据,保障安全测试系统的稳定性和测试结果的有效性,满足各行业工业互联网安全测试与科研试验需求。附图说明图1为本专利技术在训练时所使用的生成流程图。图2为本专利技术所使用辅助分类式生成对抗网络模型的框架图。图3为本专利技术验证阶段所使用的数据集KDD数据集的信息摘要。图4为本专利技术所定义的多源异构流量数据的融合文件标准格式。具体实施方式为使本专利技术的上述特点和优点更明显易懂,下面结合具体实施方式和附图对本专利技术作进一步详细说明。本专利技术在训练时所使用的生成流程图如图1所示,其中多源异构流量数据的融合文件标准格式如图4所示,本专利技术所述的多源异构网络流量融合阶段的具体步骤如下所示:步骤101、将不同格式的原始网络数据样本按照网络层协议的五元组切割成网络会话。步骤102、进行包过滤,去掉原始数据包中MAC包中的部分数据。步骤103、判断过滤后得到的载荷数据大小,当载荷数据长度大于截断长度1466字节时进行截断处理,载荷数据长度小于截断长度1466字节时进行零比特填充处理。步骤104、为103步骤得到的数据添加数据包统计信息共计14个字节。步骤105、循环读入数据,重复步骤101到104。生成器(generator,G)作为模型的重要组成部分,负责生成对抗性恶意流量样本的工作。经过生成器生成的恶意流量目的为绕过入侵检测系统,实现逃避攻击。为了将原始流量样本转换为对抗样本,不仅需要将1480字节的原始流量向量M输入进生成网络中,还需要在原始流量样本的尾部插入n维的本文档来自技高网
...

【技术保护点】
1.一种基于辅助分类式生成对抗网络的网络攻击流量生成方法,其特征在于,包括:/nA、多源异构网络流量融合:将不同的网络包格式如PCAP格式,NETFLOW格式,CFLOW格式,JFLOW格式及SFLOW格式的数据文件进行特征提取和统一的定义与标注来定义一种通用的数据格式,将统一格式后的数据用于生成模型的训练与数据的生成;/nB、网络攻击流量生成模型训练:定义辅助分类式生成对抗网络所需的流量生成器与流量判别器的网络结构以及辅助分类式生成对抗网络所需的生成损失函数与分类损失函数及训练方法;/nC、生成模型的分类微调:对上一步生成的网络攻击流量样本进行进一步的验证与微调,以此来调试生成模型生成特定攻击类型流量样本的性能。/n

【技术特征摘要】
1.一种基于辅助分类式生成对抗网络的网络攻击流量生成方法,其特征在于,包括:
A、多源异构网络流量融合:将不同的网络包格式如PCAP格式,NETFLOW格式,CFLOW格式,JFLOW格式及SFLOW格式的数据文件进行特征提取和统一的定义与标注来定义一种通用的数据格式,将统一格式后的数据用于生成模型的训练与数据的生成;
B、网络攻击流量生成模型训练:定义辅助分类式生成对抗网络所需的流量生成器与流量判别器的网络结构以及辅助分类式生成对抗网络所需的生成损失函数与分类损失函数及训练方法;
C、生成模型的分类微调:对上一步生成的网络攻击流量样本进行进一步的验证与微调,以此来调试生成模型生成特定攻击类型流量样本的性能。


2.根据权利要求1所述的一种基于辅助分类式生成对抗网络的网络攻击流量生成方法,其特征在于,步骤A进一步包括以下步骤:
A1、将不同格式的原始网络数据样本按照网络层协议的五元组(源IP地址,目的IP地址,源端口号,目的端口号,和传输层协议)切割成网络会话,即双向网络流数据;
A2、在网络数据生成和生成数据的使用过程中以太网包头部分不包含任何有效的信息,所以在数据生成之前,需要将上一步骤提取得到的网络会话删除掉会话中所有原始数据包的以太网部分的相关信息;
A3、网络会话信息主要存在于会话开始阶段的前十几个包的数据,在使用网络数据样本之前对网络会话的数据样本大小进行固定处理。即将上一步骤得到的网络会话数据样本的大小固定为1466字节,对于会话数据长度超过1466字节的部分进行截断处理,对于会话数据长度不足1466字节的会话进行零比特填充处理;
A4、由于在步骤A2将每个数据包的包头部分进行了删除处理,在使用上一步骤得到的数据前,还在会话数据的头部添加了14B的固定头部信息,包括4B源IP地址,4B目的IP地址,2B源端口号,2B目的端口号,和2B的会话长...

【专利技术属性】
技术研发人员:张茹吕智帅刘建毅胡威李静曲延盛王婵
申请(专利权)人:北京邮电大学国家电网有限公司信息通信分公司国网山东省电力公司信息通信公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1