【技术实现步骤摘要】
一种基于多假类生成对抗网络的过采样方法
[0001]本专利技术属于不平衡学习和深度学习
,特别涉及一种基于多假类生成对抗网络的过采样方法。
技术介绍
[0002]随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集与存储。然而,现实生活中,各个领域的数据都存在数据不平衡的特性,如医疗诊断,电信诈骗检测等。数据不平衡是指,在数据集中,某一类或多个类的样本数量远远小于其他类,而事实上,这些少数类样本往往具有更高的错分代价。如在诈骗邮件检测中,诈骗邮件往往是只占有全部邮件的1%,然而一旦诈骗拦截失败,往往会使用户产生十分严重的损失。因此在这类问题中,我们往往更希望能准确识别的是那部分少数类样本。
[0003]在应对不平衡数据分类时,传统分类方法通常假设数据类别分布均衡且错分代价相等,当利用传统的分类算法处理不平衡数据时,由于多数类和少数类在数量上的倾斜,以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低。围绕着如何在不降低多数类精度的情况下提升少数类样本的精度, ...
【技术保护点】
【技术特征摘要】
1.一种基于多假类生成对抗网络的过采样方法,其特征在于,具体步骤如下:(1)获取不平衡图像数据集,并对图像尺寸进行转换,并归一化数据,使网络输入图片具有相同的大小;(2)搭建并训练条件变分自编码器模型;(3)使用变分自编码器中的解码器初始化生成器的权重,并搭建生成对抗网络模型;(4)训练生成对抗网络模型;(5)使用少数类标签和随机噪声作为网络输入,生成对应标签的少数类样本。2.根据权利要求1所述的一种基于多假类生成对抗网络的过采样方法,其特征在于,所述步骤(1)中数据预处理的具体步骤如下:(1.1)获得不平衡图像数据集为X={X1,X2,
…
,X
n
},n表示图像最大数量;(1.2)获得不平衡图像标签集为Y={Y1,Y2,
…
,Y
n
},n表示图像最大数量;(1.3)将图像的尺寸转换为64x64x通道数;(1.4)将图像数值归一化,缩放到[0,1]之间。3.根据权利要求1所述的一种基于多假类生成对抗网络的过采样方法,其特征在于,所述步骤(2)中搭建并训练条件变分自编码器模型的具体步骤如下:(2.1)使用4层卷积网络建立解码器,其卷积核大小分别为64,128,128,256,层与层之间使用LeakyReLU激活函数,然后使用Flatten层展开,最后输出维度为均值和方差的维度;(2.2)使用4层卷积网络建立编码器,其卷积核大小分别为256,128,128,64,层与层之间使用LeakyReLU激活函数,输出生成图片的维度;(2.3)使用embedding作为嵌入层模型,输入标签维度,输出相应类别的潜在空间;(2.4)使用图片输入解码器,解码器输出均值和方差以后,根据均值和方差计算出噪声,将类别标签使用embedding嵌入到噪声中;(2.5)使用嵌入标签信息的噪声作为解码器的输入,最终输出生成图片;(2.6)使用生成图片和原始图片的均方误差作为重构损失,噪声与标准正态分布的误差作为KLD损失,使用KLD损失和重构损失之和训练变分自编码器;(2.7)设置Adam为优化器,设置迭代次数为30次,开始训练。4.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。