一种基于WGAN训练收敛的不平衡数据集分析方法技术

技术编号：30431903 阅读：19 留言：0更新日期：2021-10-24 17:25

本发明专利技术公开了一种基于WGAN训练收敛的不平衡数据集分析方法，针对不平衡数据集中的少类样本构建包含生成器和判别器的WGAN模型。生成器生成数据，再利用判别器对生成的新数据和原始数据进行判断，进而将判别结果以代价的形式反馈给生成器，使生成器生成与原始数据更相近的新数据。在WGAN模型训练过程中，生成器和判别器交替训练，每一轮以判别器的代价函数收敛作为生成器和判别器训练平衡的纳什均衡点，指导生成器和判别器的训练更替。本发明专利技术提出的基于WGAN训练收敛的不平衡数据集分析方法，可以通过生成大量少类样本，与原始样本融合，实现数据集的平衡，当基于浅层机器学习算法对数据分类时，实现对原始少类数据的高效正确检测。测。测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于WGAN训练收敛的不平衡数据集分析方法

[0001]本专利技术属于数据分析处理领域，涉及网络安全大数据分析和建模，具体涉及一种基于WGAN训练收敛的不平衡数据集分析方法。

技术介绍

[0002]在网络空间中，通过多种途径获取的数据集通常是不平衡的，即数据集中包含的各个类别的样本数目不同，如网络入侵检测中，大部分情况下都是正常访问流量，异常流量出现的情况较少；应用软件中，良性应用的数目要远远多于恶意应用的数目，而恶意应用一旦因为应用不当而广泛传播，将会给用户带来无法估计的损失。不平衡的数据集很常见，在使用数据挖掘算法和机器学习算法进行分析时，通常会产生很多问题，如少类样本数量较少，不利于分类器的学习和训练，以至于对训练集中的少类样本分类精度较差；在分类边界上分布较少的少类样本，造成分类面向少类样本偏离，使得少类样本的误分概率较大；当少类样本数量极少，又被分类器划分到更多子空间时，容易被当作噪声数据抛弃，进而形成数据碎片。随着深度学习、人工智能计算的不断发展，以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用，我们将深度学习技术应用于处理网络安全不平衡数据集，实现网络安全数据分类，提高网络数据中占少类的威胁检测。
[0003]对抗生成网络GAN是一个典型的深度生成式模型，其设计灵感来自于博弈论，一般由生成器和判别器两个神经网络构成，生成器用于尽量生成与真实数据相近的新数据去欺骗判别器，判别器的目标是尽量辨别出生成器生成的假数据和真实数据。通过对抗方式进行多次训练，最后得到一个性能优异的生成器。但是...

【技术保护点】

【技术特征摘要】
1.一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：该方法具体包括以下步骤：步骤一、数据采集与预处理采集网络安全数据，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，并计算两个子集间的不平衡度与过采样率，根据过采样率确定生成少类数据的数量；步骤二、构建WGAN模型构建包含生成器G和判别器D的WGAN模型，将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中，生成符合要求数量的新的少类数据；步骤三、训练WGAN模型对WGAN模型中的生成器与判别器进行多次交叉迭代训练，在一次迭代中首先固定判别器，训练生成器，然后再固定生成器，训练判别器；每一轮迭代训练时，生成器的训练次数是固定的，判别器的训练次数根据代价函数的收敛情况动态变化；步骤四、数据融合使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据，将其与步骤一中的少类数据子集融合后再与多类数据子集融合，形成新的网络安全数据集；步骤五、数据分类将步骤四得到的新的网络安全数据集输入浅层机器学习模型中，对浅层机器学习模型模型进行训练；然后再将无标签的网络安全数据输入训练后的浅层机器学习模型，输出对应的预测标签，完成网络安全数据的分类。2.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：定义不同类别数据间的不平衡度IR和过采样率R分别为：义不同类别数据间的不平衡度IR和过采样率R分别为：其中，N
+
和N
‑
分别为采集的网络安全数据中，多类数据和少类数据的数量，表示对数据向下取整。3.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：生成器G和判别器D的网络结构由全连接层构成。4.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。5.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，...

【专利技术属性】
技术研发人员：许艳萍，裘振亮，章霞，叶挺聪，仇建，张桦，吴以凡，张灵均，陈政，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人