一种基于WGAN训练收敛的不平衡数据集分析方法技术

技术编号:30431903 阅读:19 留言:0更新日期:2021-10-24 17:25
本发明专利技术公开了一种基于WGAN训练收敛的不平衡数据集分析方法,针对不平衡数据集中的少类样本构建包含生成器和判别器的WGAN模型。生成器生成数据,再利用判别器对生成的新数据和原始数据进行判断,进而将判别结果以代价的形式反馈给生成器,使生成器生成与原始数据更相近的新数据。在WGAN模型训练过程中,生成器和判别器交替训练,每一轮以判别器的代价函数收敛作为生成器和判别器训练平衡的纳什均衡点,指导生成器和判别器的训练更替。本发明专利技术提出的基于WGAN训练收敛的不平衡数据集分析方法,可以通过生成大量少类样本,与原始样本融合,实现数据集的平衡,当基于浅层机器学习算法对数据分类时,实现对原始少类数据的高效正确检测。测。测。

【技术实现步骤摘要】
一种基于WGAN训练收敛的不平衡数据集分析方法


[0001]本专利技术属于数据分析处理领域,涉及网络安全大数据分析和建模,具体涉及一种基于WGAN训练收敛的不平衡数据集分析方法。

技术介绍

[0002]在网络空间中,通过多种途径获取的数据集通常是不平衡的,即数据集中包含的各个类别的样本数目不同,如网络入侵检测中,大部分情况下都是正常访问流量,异常流量出现的情况较少;应用软件中,良性应用的数目要远远多于恶意应用的数目,而恶意应用一旦因为应用不当而广泛传播,将会给用户带来无法估计的损失。不平衡的数据集很常见,在使用数据挖掘算法和机器学习算法进行分析时,通常会产生很多问题,如少类样本数量较少,不利于分类器的学习和训练,以至于对训练集中的少类样本分类精度较差;在分类边界上分布较少的少类样本,造成分类面向少类样本偏离,使得少类样本的误分概率较大;当少类样本数量极少,又被分类器划分到更多子空间时,容易被当作噪声数据抛弃,进而形成数据碎片。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,我们将深度学习技术应用于处理网络安全不平衡数据集,实现网络安全数据分类,提高网络数据中占少类的威胁检测。
[0003]对抗生成网络GAN是一个典型的深度生成式模型,其设计灵感来自于博弈论,一般由生成器和判别器两个神经网络构成,生成器用于尽量生成与真实数据相近的新数据去欺骗判别器,判别器的目标是尽量辨别出生成器生成的假数据和真实数据。通过对抗方式进行多次训练,最后得到一个性能优异的生成器。但是,GAN存在训练不稳定、梯度消失、模式崩溃的问题,为了解决这些问题,WGAN被提了出来,成功地对GAN进行了改进,表现为四点:(1)判别器的最后一层网络模型去掉Sigmoid;(2)生成器和判别器的损失函数不取对数;(3)判别器参数更新的过程中对损失函数值做截断;(4)不使用基于动量的优化算法。但是,不管是GAN,还是WGAN都没有考虑的一点是在训练过程中,对抗式生成网络存在训练不平衡的问题,如果判别器训练得太好,生成器就无法得到足够的梯度继续优化,而如果判别器训练得太弱,指示作用不显著,同样不能让生成器进行有效的学习。这样一来,判别器的训练次数就非常难把控。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种基于WGAN训练收敛的不平衡数据集分析方法,使用WGAN模型,利用生成器生成与原始的少类样本相似的新样本后,与原样本进行融合形成新的数据集,再输入浅层机器学习算法中进行分类,改善因样本不平衡导致的分类错误。在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练,平衡判别器的指示作用与生成器的有效学习。
[0005]一种基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
[0006]步骤一、数据采集与预处理
[0007]采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率,根据过采样率确定生成少类数据的数量。
[0008]步骤二、构建WGAN模型
[0009]构建包含生成器和判别器的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,生成符合要求数量的新的少类数据。
[0010]步骤三、训练WGAN模型
[0011]对WGAN模型中的生成器与判别器进行多次交叉迭代训练,在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器。每一轮迭代训练时,生成器的训练次数是固定的,判别器的训练次数根据代价函数的收敛情况动态变化。判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。
[0012]步骤四、数据融合
[0013]使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成新的网络安全数据集。
[0014]步骤五、数据分类
[0015]将步骤四得到的新的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练。然后再将无标签的网络安全数据输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。
[0016]作为优选,所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。
[0017]本专利技术具有以下有益效果:
[0018]1、在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练,并且在每一轮的训练过程中以前两轮判别器的代价函数收敛变化情况,确定判别器的训练次数,避免因判别器过优导致的生成器梯度优化不足,或判别器的指示作用不显著导致的生成器无法进行有效的学习。
[0019]2、使用训练后的WGAN模型生成更多的少类数据后与原数据集融合,平衡数据集中不同的样本数量,再对浅层机器学习模型进行训练,有效降低由于数据不平衡带来的分类误差。
附图说明
[0020]图1为一种基于WGAN训练平衡的不平衡数据集分析方法。
具体实施方式
[0021]以下结合附图对本专利技术作进一步的解释说明;
[0022]如图1所示,一种基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:
[0023]步骤一、数据采集与预处理
[0024]对原始的网络安全数据进行One

hot编码,构建尺寸为N*D的网络安全数据集X,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,其中多类数据X
d
的数量
为N
+
,少类数据X
s
的数量为N

,定义不同类别数据间的不平衡度IR和过采样率R分别为:
[0025][0026][0027]其中,表示对数据向下取整。
[0028]为了实现不同类别的样本达到数目上的平衡,需要合成(IR

1)倍的新的少类数据。
[0029]步骤二、构建WGAN模型
[0030]构建包含生成器G和判别器D的WGAN模型,生成器G和判别器D的网络结构由全连接层构成。将噪声数据X
Nosie
以及步骤一中的少类数据子集X
s
输入到WGAN模型中,使用生成器G新的少类数据集X
f
,大小为R*N


[0031]步骤三、训练WGAN模型
[0032]对WGAN模型中的生成器与判别器进行多次交叉迭代训练,训练过程即为减小生成器Loss和判别器Loss的过程。本实施例选择Wasserstein距离作为WGAN模型的损失函数:
[0033][0034]其中,P
D
是判别器数据,P
G
是生成器数据,W(P
D
,P
G
)是P
D
和P
G
组成的所有可能联合分布的集合。对于联合分布γ来说,数据子集X<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:该方法具体包括以下步骤:步骤一、数据采集与预处理采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率,根据过采样率确定生成少类数据的数量;步骤二、构建WGAN模型构建包含生成器G和判别器D的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,生成符合要求数量的新的少类数据;步骤三、训练WGAN模型对WGAN模型中的生成器与判别器进行多次交叉迭代训练,在一次迭代中首先固定判别器,训练生成器,然后再固定生成器,训练判别器;每一轮迭代训练时,生成器的训练次数是固定的,判别器的训练次数根据代价函数的收敛情况动态变化;步骤四、数据融合使用步骤三训练后的WGAN模型,输出符合要求数量的新的少类数据,将其与步骤一中的少类数据子集融合后再与多类数据子集融合,形成新的网络安全数据集;步骤五、数据分类将步骤四得到的新的网络安全数据集输入浅层机器学习模型中,对浅层机器学习模型模型进行训练;然后再将无标签的网络安全数据输入训练后的浅层机器学习模型,输出对应的预测标签,完成网络安全数据的分类。2.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:定义不同类别数据间的不平衡度IR和过采样率R分别为:义不同类别数据间的不平衡度IR和过采样率R分别为:其中,N
+
和N

分别为采集的网络安全数据中,多类数据和少类数据的数量,表示对数据向下取整。3.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:生成器G和判别器D的网络结构由全连接层构成。4.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,其特征在于:判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。5.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法,...

【专利技术属性】
技术研发人员:许艳萍裘振亮章霞叶挺聪仇建张桦吴以凡张灵均陈政
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1