一种基于WGAN-GP和过采样的不平衡学习方法技术

技术编号：21225365 阅读：44 留言：0更新日期：2019-05-29 06:06

本发明专利技术公开了一种基于WGAN‑GP和过采样的不平衡学习方法，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(BN)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签yi∈{0,1}组合成新的向量作为输入，输出样本标签yi对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签yi以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。本发明专利技术能大大减少噪声样本的产生，优化生成少数样本的质量，最终提升原始不平衡数据集上训练的分类器的泛化性能。

An Unbalanced Learning Method Based on WGAN-GP and Oversampling

The invention discloses an unbalanced learning method based on WGAN GP and oversampling, which comprises a generator network consisting of three layers of fully connected network and the output of each layer is normalized by Batch Normalization (BN) to prevent gradient dispersion. The generator network generates a sample of a specific tag, and sets Gauss random noise Z and sample tag Yi <{0,1} due to the ultimate need to generate a sample of a specific tag. The new vector is synthesized as input, and the output sample label Yi corresponds to the generated sample X. The discriminator network is also composed of three layers of fully connected network. The input of the discriminator network is the sample label Yi and the real sample or generated sample, and the output result is to judge that the sample is real or generated. The method can greatly reduce the generation of noise samples, optimize the quality of generating a few samples, and ultimately improve the generalization performance of the classifier trained on the original unbalanced data set.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于WGAN-GP和过采样的不平衡学习方法
本专利技术涉及计算机
，尤其涉及一种基于WGAN-GP和过采样的不平衡学习方法。
技术介绍
在不平衡数据集上进行建模学习对于学术界和产业界来说都是一个非常重要的问题。不平衡的学习问题可以定义为来自二分类或多分类数据集的学习问题，其中一类的实例数(成为多数类)明显高于其余类的实例数(成为少数类)。不平衡率(IR)，定义为多数类与每一个少数类之间的比例，这个比例对于不同的应用是不同的，对于二分类问题，不平衡率在100到100000之间。不平衡问题是多种实际应用场景普遍存在的，例如：异常检测、故障诊断、电子邮件归档、人脸识别、欺诈检测。标准的机器学习方法在不平衡数据集中表现不佳，因为他们会更偏向于多数类，以准确率为导向的学习过程将缺乏对少数类的关注，因此很容易将少数类误判成多数类。然而对人们有价值的数据通常是少数类，这些少数类的错分代价往往非常大，有效提高少数类的分类精度具有实际社会、经济、技术价值。目前，人们也提出许多方法来解决不平衡分类问题。Galar等人系统地将现有工作分为四类：数据级方法，成本敏感法，算法级方法和集成学习方法。数据级方法通过基于特征空间中最近邻居的过采样或欠采样将不平衡数据转换为平衡数据；成本敏感学习调整传统方法的初始权重，以更多地关注少数人；算法级方法直接修改现有的学习算法，以减轻对多数对象的偏见；最后，集合方法将采样或其他技术与传统的集合方法(如bagging或boosting)相结合，这种方法对于困难的数据具有高度竞争性和鲁棒性综上，不平衡数据集的传统机器学习方法的难点在于：少数...

【技术保护点】
1.一种基于WGAN‑GP和过采样的不平衡学习方法，其特征在于，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(一种在训练神经网络时，对每批训练数据进行归一化处理的技术)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签yi∈{0,1}组合成新的向量作为输入，输出样本标签yi对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签yi以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。

【技术特征摘要】
1.一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了BatchNormalization(一种在训练神经网络时，对每批训练数据进行归一化处理的技术)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签yi∈{0,1}组合成新的向量作为输入，输出样本标签yi对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签yi以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。2.如权利要求1所述的一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，包括以下步骤：S1.获取原始数据；S2.将原始数据,分别将少数类样本随机采样,并且与预设量的多数类样本组成多个不同IR率的数据集；S3.依次训练每一个二分类的不平衡数据集其中n表示当前数据集的样本数，yi∈{0,1}，y＝1表示的是少数类样本的标签，ConditionalWGAN-GP中生成器的输入为样本标签和输入的随机噪声，输出一个生成样本；同时判别器的输入为真实样本与对应标签，或生成样本与其输入标签，输出判断时真实样本...

【专利技术属性】
技术研发人员：邓晓衡，黄戎，沈海澜，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人