一种基于多假类生成对抗网络的过采样方法技术

技术编号：32179327 阅读：35 留言：0更新日期：2022-02-08 15:40

一种基于多假类生成对抗网络的过采样方法。首先通过一个条件变分自编码器学习不平衡图像数据的特征；然后使用变分自编码器中的解码器初始化GAN中的生成器，帮助分别器更好的确定类别分布；然后使用不平衡数据集来训练多假类生成对抗网络，同时为多假类生成对抗网络添加梯度惩罚项，以提升GAN训练的稳定性，并保证样本生成多样性；将多假类生成对抗网络中的分类损失替换为焦点损失，使GAN在训练时更加侧重那些难于分对的样本；最后为训练后的GAN模型输入少数类别标签及随机噪声，即可生成高质量的少数类样本。本发明专利技术能够有效地为不平衡图像数据集中的少数类生成高质量的样本，使数据成为平衡数据集，并帮助分类器提高不平衡场景下的分类性能。景下的分类性能。景下的分类性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多假类生成对抗网络的过采样方法

[0001]本专利技术属于不平衡学习和深度学习
，特别涉及一种基于多假类生成对抗网络的过采样方法。

技术介绍

[0002]随着信息技术的快速发展，各领域的数据正以前所未有的速度产生并被广泛收集与存储。然而，现实生活中，各个领域的数据都存在数据不平衡的特性，如医疗诊断，电信诈骗检测等。数据不平衡是指，在数据集中，某一类或多个类的样本数量远远小于其他类，而事实上，这些少数类样本往往具有更高的错分代价。如在诈骗邮件检测中，诈骗邮件往往是只占有全部邮件的1％，然而一旦诈骗拦截失败，往往会使用户产生十分严重的损失。因此在这类问题中，我们往往更希望能准确识别的是那部分少数类样本。
[0003]在应对不平衡数据分类时，传统分类方法通常假设数据类别分布均衡且错分代价相等，当利用传统的分类算法处理不平衡数据时，由于多数类和少数类在数量上的倾斜，以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类，造成少数类的分类精度较低。围绕着如何在不降低多数类精度的情况下提升少数类样本的精度，...

【技术保护点】

【技术特征摘要】
1.一种基于多假类生成对抗网络的过采样方法，其特征在于，具体步骤如下：(1)获取不平衡图像数据集，并对图像尺寸进行转换，并归一化数据，使网络输入图片具有相同的大小；(2)搭建并训练条件变分自编码器模型；(3)使用变分自编码器中的解码器初始化生成器的权重，并搭建生成对抗网络模型；(4)训练生成对抗网络模型；(5)使用少数类标签和随机噪声作为网络输入，生成对应标签的少数类样本。2.根据权利要求1所述的一种基于多假类生成对抗网络的过采样方法，其特征在于，所述步骤(1)中数据预处理的具体步骤如下：(1.1)获得不平衡图像数据集为X＝{X1,X2,
…
,X
n
}，n表示图像最大数量；(1.2)获得不平衡图像标签集为Y＝{Y1,Y2,
…
,Y
n
}，n表示图像最大数量；(1.3)将图像的尺寸转换为64x64x通道数；(1.4)将图像数值归一化，缩放到[0,1]之间。3.根据权利要求1所述的一种基于多假类生成对抗网络的过采样方法，其特征在于，所述步骤(2)中搭建并训练条件变分自编码器模型的具体步骤如下：(2.1)使用4层卷积网络建立解码器，其卷积核大小分别为64，128，128，256，层与层之间使用LeakyReLU激活函数，然后使用Flatten层展开，最后输出维度为均值和方差的维度；(2.2)使用4层卷积网络建立编码器，其卷积核大小分别为256，128，128，64，层与层之间使用LeakyReLU激活函数，输出生成图片的维度；(2.3)使用embedding作为嵌入层模型，输入标签维度，输出相应类别的潜在空间；(2.4)使用图片输入解码器，解码器输出均值和方差以后，根据均值和方差计算出噪声，将类别标签使用embedding嵌入到噪声中；(2.5)使用嵌入标签信息的噪声作为解码器的输入，最终输出生成图片；(2.6)使用生成图片和原始图片的均方误差作为重构损失，噪声与标准正态分布的误差作为KLD损失，使用KLD损失和重构损失之和训练变分自编码器；(2.7)设置Adam为优化器，设置迭代次数为30次，开始训练。4.根据权利要求...

【专利技术属性】
技术研发人员：董明刚，廖晨，叶威，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人