当前位置: 首页 > 专利查询>同济大学专利>正文

基于生成对抗网络的极度不均衡数据的分类框架制造技术

技术编号:24889895 阅读:49 留言:0更新日期:2020-07-14 18:16
本发明专利技术提出了基于生成对抗网络的极度不均衡数据的分类框架,受启发于生成对抗网络,并且引入了迁移学习,通过生成对抗网络来合成数据解决数据不均衡问题,利用合成数据来预训练一个分类模型,然后通过迁移学习的方法,利用真实数据来微调模型从而最终解决数据不均衡的分类问题,由于本方法既没有向训练数据中添加少类合成数据,也没有减少多类样本的数量从而可以有效的减少模型过拟合的概率,也没有丢失信息量。同时本方法也没有引入新的数据变量从而避免了加权方法中寻找合适参数的过程。

【技术实现步骤摘要】
基于生成对抗网络的极度不均衡数据的分类框架
本专利技术属于机器学习领域,特别涉及基于生成对抗网络的极度不均衡数据的分类框架。
技术介绍
数据不均衡问题指的是在机器学习的训练数据中某一个类别的标签数据量过少,或者正负样本的比例差距过大导致学习模型无法正常的建模,即无法通过常规的机器学习模型方法来建立正常的分类模型。为此在解决数据不均衡的问题上研究者们早已提出众多的方法来解决数据不均衡的问题,而这些方法主要可以划分为以下的三类:(1)过采样,即通过复制少类样本添加到训练集中来解决少类样本中标签不足的问题;(2)欠采样,通过减少训练集中多类样本的数据量以解决正负比例不均衡的问题;(3)加权方法,通过给损失函数加权来重新定义损失函数以解决训练过程中的梯度偏移问题。而这些方法目前均存在一些问题,如过采样中通过复制少类样本加入训练集中容易造成模型的过拟合,从而导致训练的模型效果不佳;而欠采样则减少的多类样本的数据量,造成了信息的丢失。而加权方法则引入了新的权重变量,即权重变量的选择会影响最终模型效果的好坏,而如何寻找合适的权重变量本身就是一个非常困难的问题。
技术实现思路
本专利技术提供基于生成对抗网络的极度不均衡数据的分类框架,克服传统解决数据不均衡问题的方法中的不足,有效的防止了模型的过拟合,并且保证了训练数据中没有信息的丢失,同时没有引入新的变量并且提升了模型的效果。本专利技术的目的是这样实现的:基于生成对抗网络的极度不均衡数据的分类框架,至少包括:生成模型,用来生成合成的正样本和负样本;两个判别模型,第一个判别模型用来判别数据来自于真实数据还是所述生成模型生成的数据,第二个判别模型则用来判别数据是正样本还是负样本;预训练模块,利用所述生成模型生成的正负样本来预训练学习模型,保留合成数据学习到的知识;迁移学习模块,通过保持和记录上述知识,利用真实数据对学习模型的输出层进行再训练,以微调学习模型;其中,上述生成模型、判别模型组成生成对抗网络,在处于模型最终收敛的状态时,所述生成模型能够得到合成的正负样本。进一步地,还包括预处理模块,所述预处理模块用于将原始数据转化成可以用来计算的数值型数据。进一步地,所述预处理模块对原始数据进行预处理的方式包括数据清理、数据集成、数据变换。进一步地,在进行所述数据清理时,通过填写缺失值、光滑噪声数据以及识别或解决不一致来清理数据。进一步地,所述数据清理达到如下目标:数据的格式化标准、异常数据的清除、错误纠正、重复数据的清除。进一步地,所述数据集成用于将多个数据源中的数据结合起来并统一存储,建立数据仓库。进一步地,所述数据变换用于将数据转换成学习模型需要的形式。本专利技术的有益效果在于:通过本框架中的方法来解决数据不均衡问题可以避免常规方法中往真实数据中复制和引入新的数据而导致模型过拟合的问题,同时也没有丢失所有数据的信息,并且没有引入新的参数,使得模型的寻优相对比较容易,有更强的可复制和扩展性。附图说明图1是常规的生成对抗网络模型;图2是本专利技术提出的新的用以解决数据不均衡的生成对抗网络模型;图3是本专利技术中模型预训练的模型图;图4是本专利技术中迁移学习的模型图。具体实施方式下面结合附图1-4来作具体说明。本实施例提出一个解决机器学习中数据不均衡的通用框架,受启发于生成对抗网络,并提出了一个不同于常规架构的生成对抗网络,本文提出的生成对抗网络由一个生成模型和两个判别模型组成,其中生成模型生成合成的正负样本,第一个判别模型用来判别数据来自于真实数据还是生成模型生成的数据,第二个判别模型则用来判别数据是正样本还是负样本。当模型最终收敛,则生成模型能够得到合成的正负样本。利用生成模型生成的样本来预训练模型则可以解决数据不均衡的问题,同时引入迁移学习的方法,预训练模型可以保留合成数据学习到的知识,迁移学习通过保持神经网络中特征提取层中参数的不变,利用真实数据微调最终模型,则模型同时学习到了真实数据中的知识。通过本框架中的方法来解决数据不均衡问题可以避免常规方法中往真实数据中复制和引入新的数据而导致模型过拟合的问题,同时也没有丢失所有数据的信息,并且没有引入新的参数,使得模型的寻优相对比较容易,有更强的可复制和扩展性。本方法中的主要模块的具体实施如下:预处理,预处理的过程就是将原始的数据转化成模型可以用来计算的数值型数据,并对缺失值进行填充。数据的原始字段如表1所示:表1原始字段以及处理后的字段从图1中可以看出可用的原始字段大部分为字符串类型,而作为生成对抗网络本身则只能对数值类型的变量做处理,因此预处理不仅包含前面提到的数据清理和数据集成,并且在数据变换过程中,还将字符数据转换成模型可以处理的数值型数据。利用GAN生成离散数据,由于常规的GAN无法生成离散的数据因为GAN中的生成模型是利用判别模型D的损失通过反向传播算法来实现的,因此我们考虑使用一个反馈式的神经网络作为一个自动编码机来解决无监督学习的过程,一个自动编码机包含一个编码器Enc和一个解码器Dec。解码器和编码器均由一个多层的神经网络组成。其过程如下:算法环境:Python,numpy输入:1.样本属性X∈Rn2.标签y3.迭代次数n输出:1.生成模型GDec(1)当迭代次数小于n时:(2)从数据中选取m个样本(x,y)~Pdata(x,y)(3)更新自动编码机通过梯度下降法:其中x`=Dec(Enc(x))。当算法的迭代次数大于n时算法收敛,则自动编码机的训练完成。预训练模块,其过程如下:模型环境:Python,Keras,Pandas输入:1.真实数据Pdata(x,y)2.噪声数据Pz(x,y)3.模型的迭代次数n输出:模型中包含的所有参数(1)当迭代次数小于n时:(2)从真实数据和噪声数据中分别抽取m个样本(3)通过梯度提升的方法更新判别模型D1:(4)通过梯度下降法更新生成模型GDec:(5)分别从真实数据中抽取如下m个样本(6)通过梯度提升的方法更新判别模型D2:(7)通过梯度下降法更新生成模型GDec:迁移学习模块,由于本实施例中的GAN由深度学习模型组成,在预训练完成以后,保持模型中特征参数的不变,利用真实数据对模型的输出层进行再训练,详细的过程见附图,预训练能够利用生成的数据来训练我们的模型以解决数据不均衡的问题,迁移学习则通过保持和记录这些知识,利用真实数据对模型进行再训练,从而将真实数据中的知识保留在模型中。值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本专利技术创造的精神和原理,但是应该理解,本专利技术并不本文档来自技高网...

【技术保护点】
1.基于生成对抗网络的极度不均衡数据的分类框架,其特征在于,至少包括:/n生成模型,用来生成合成的正样本和负样本;/n两个判别模型,第一个判别模型用来判别数据来自于真实数据还是所述生成模型生成的数据,第二个判别模型则用来判别数据是正样本还是负样本;/n预训练模块,利用所述生成模型生成的正负样本来预训练学习模型,保留合成数据学习到的知识;/n迁移学习模块,通过保持和记录上述知识,利用真实数据对学习模型的输出层进行再训练,以微调学习模型;/n其中,上述生成模型、判别模型组成生成对抗网络,在处于模型最终收敛的状态时,所述生成模型能够得到合成的正负样本。/n

【技术特征摘要】
1.基于生成对抗网络的极度不均衡数据的分类框架,其特征在于,至少包括:
生成模型,用来生成合成的正样本和负样本;
两个判别模型,第一个判别模型用来判别数据来自于真实数据还是所述生成模型生成的数据,第二个判别模型则用来判别数据是正样本还是负样本;
预训练模块,利用所述生成模型生成的正负样本来预训练学习模型,保留合成数据学习到的知识;
迁移学习模块,通过保持和记录上述知识,利用真实数据对学习模型的输出层进行再训练,以微调学习模型;
其中,上述生成模型、判别模型组成生成对抗网络,在处于模型最终收敛的状态时,所述生成模型能够得到合成的正负样本。


2.根据权利要求1所述的基于生成对抗网络的极度不均衡数据的分类框架,其特征在于,还包括预处理模块,所述预处理模块用于将原始数据转化成可以用来计算的数值型数据。


3.根据权利要求2所述的基于生成对抗网...

【专利技术属性】
技术研发人员:王成胡腾
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1