具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型制造技术

技术编号:31373054 阅读:22 留言:0更新日期:2021-12-15 10:52
本发明专利技术提供了用于对生成器神经网络和编码器神经网络进行训练的方法、系统和装置,其包括在计算机存储介质上编码的计算机程序。生成器神经网络基于潜在值集合生成数据项,这些数据项是分布的样本。编码器神经网络生成对应数据项的潜在值集合。方法包括对生成器神经网络、编码器神经网络和鉴别器神经网络进行联合训练,鉴别器神经网络被配置为区分由生成器网络生成的样本和不由生成器网络生成的分布的样本。鉴别器神经网络被配置为通过处理,通过鉴别器神经网络来区分包括样本部分和潜在部分的输入对。训练是基于损失函数,损失函数包括基于由鉴别器神经网络处理的输入对的样本部分和潜在部分的联合鉴别器损失项和基于输入对的样本部分或潜在部分中的仅一个部分的至少一个单一鉴别器损失项。至少一个单一鉴别器损失项。至少一个单一鉴别器损失项。

【技术实现步骤摘要】
【国外来华专利技术】具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型
[0001]本申请是于2019年5月23日提交的美国临时专利申请号62/852,250的非临时申请并且要求其优选权。

技术介绍

[0002]本说明书涉及用于对大规模生成神经网络进行训练以及对用于执行推理的神经网络进行编码的方法和系统。
[0003]神经网络是机器学习模型,该机器学习模型采用一层或多层非线性单元来预测接收到的输入的输出。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层——即,下一个隐藏层或输出层——的输入。网络的每一层都根据相应的参数集合的当前值从接收到的输入生成输出。

技术实现思路

[0004]本说明书通常描述了被实施为在一个或多个位置的一个或多个计算机中的计算机程序的系统可以如何执行方法来对自适应系统进行训练(即,调整自适应系统的参数),该自适应系统是包括推理模型的生成对抗网络(GAN),其包括生成器神经网络、编码器神经网络和鉴别器神经网络。神经网络是基于从分布中选择的数据项的训练集合进行训练的。生成器神经网络,一旦被训练,便可以用于基于从潜在值分布(或“潜在分布”)中选择的潜在值(或仅仅为“潜在”)从分布中生成样本。编码器神经网络,一旦被训练,便可以用于基于从分布中选择的数据项从潜在值分布中生成潜在值。即,编码器神经网络可以被认为实施生成器神经网络的逆函数。
[0005]更具体地,本说明书涉及一种对生成器神经网络和编码器神经网络进行训练的计算机实现的方法。生成器神经网络可以被配置为基于潜在值集合生成数据项,这些数据项是表示训练数据项集合的分布的样本。编码器神经网络可以被配置为生成对应数据项的潜在值集合。训练方法可以包括对生成器神经网络、编码器神经网络和鉴别器神经网络进行联合训练,该鉴别器神经网络被配置为区分由生成器网络生成的样本和不由生成器网络生成的分布的样本。鉴别器神经网络可以被配置为通过处理,通过鉴别器神经网络来区分包括样本部分和潜在部分的输入对。输入对的样本部分和潜在部分可以包括由生成器神经网络生成的分布的样本和分别用于生成样本的相应潜在值集合或训练数据项集合的训练数据项和由编码器神经网络基于训练数据项生成的潜在值集合。训练可以是基于损失函数,该损失函数包括基于由鉴别器神经网络处理的输入对的样本部分和潜在部分的联合鉴别器损失项和仅仅基于输入对的样本部分或潜在部分中的一个部分的至少一个单一鉴别器损失项。
[0006]在实施方式中,通过使用损失函数对生成器神经网络和编码器神经网络进行训练,已经发现,可以有效地对大规模生成器神经网络和编码器神经网络进行训练,该损失函数包括基于由鉴别器神经网络处理的输入对的联合鉴别器损失项和仅仅基于输入对的样
本部分或潜在部分中的一个部分的单一鉴别器损失项。与已知的方法相比,这可能允许更有效地处理大规模数据。具体地,实验发现,在从数据项中提取显著信息——例如供分类系统使用或用于其他目的,诸如控制代理——方面,编码器的示例比已知的方法更好。已经发现,在生成用户认为是真实的数据项方面,生成器比已知的技术更好。还已经发现,损失函数的使用提供比一些已知的技术更稳定的训练过程,这允许对大规模生成和推理神经网络进行有效训练,该损失函数包括基于由鉴别器神经网络处理的输入对的联合鉴别器损失项和仅仅基于输入对的样本部分或潜在部分中的一个部分的单一鉴别器损失项。
[0007]训练方法还可以包括以下可选特征。
[0008]单一鉴别器损失项可以是基于输入对的样本部分。单一鉴别器损失项可以包括样本鉴别得分,该样本鉴别得分是基于使用样本鉴别器子网络对输入对的样本部分进行处理而被生成的。样本鉴别得分可以指示以下可能性:输入对的样本部分是由生成器神经网络生成的样本或是训练数据项集合的真正训练数据项。在这方面,样本鉴别得分可以是概率。
[0009]样本鉴别器子网络可以是基于卷积神经网络。例如,样本鉴别器子网络可以是基于来自“BigGAN”框架的鉴别器网络(Andrew Brock、Jeff Donahue和Karen Simonyan在2019年的ICLR的arXiv 1809:11096中提交的“Large scale GAN training for high fidelity natural image synthesis(用于高保真自然图像合成的大规模GAN训练)”,其公开内容通过引用并入本文)。
[0010]样本鉴别得分可以进一步基于将投影应用于样本鉴别器子网络而被生成。例如,投影可以被实施为进一步的线性神经网络层,该线性神经网络层可以具有要使用所描述的训练方法进行训练的可训练参数。
[0011]单一鉴别器损失项可以是基于输入对的潜在部分。单一鉴别器损失项包括潜在鉴别得分,该潜在鉴别得分是基于使用潜在鉴别器子网络对输入对的潜在部分进行处理而被生成的。潜在鉴别得分可以指示以下可能性:输入对的潜在部分是使用编码神经网络基于训练数据项而被生成的潜在值集合或是与使用生成器神经网络而被生成的样本对应的潜在值集合。在这方面,潜在鉴别得分可以是概率。
[0012]潜在鉴别得分可以进一步基于将投影应用于潜在鉴别器子网络而被生成。例如,投影可以被实施为进一步的线性神经网络层,该线性神经网络层可以具有要使用所描述的训练方法进行训练的可训练参数。
[0013]潜在鉴别器子网络可以是基于多层感知器。例如,潜在鉴别器子网络可以是“ResNet”类型的神经网络,包括残差块和跳过连接。
[0014]损失函数可以包括多个单一鉴别器损失项。例如,损失函数可以包括样本鉴别得分和潜在鉴别得分。
[0015]联合鉴别器损失项可以包括使用联合鉴别器子网络而被生成的联合鉴别得分。联合鉴别得分可以指示以下可能性:输入对包括由生成器神经网络生成的分布的样本和分别用于生成样本的相应潜在值集合或训练数据项集合的训练数据项和由编码器神经网络基于训练数据项生成的潜在值集合。
[0016]联合鉴别器子网络可以被配置为处理输入对。可替代地,联合鉴别器子网络可以被配置为处理样本鉴别器子网络的输出和潜在鉴别器子网络的输出,其中,样本鉴别器子网络被配置为处理输入对的样本部分,并且潜在鉴别器子网络被配置为处理输入对的潜在
部分。样本鉴别器子网络和潜在鉴别器子网络可以与上面所描述的相同。
[0017]联合鉴别得分可以进一步基于将投影应用于联合鉴别器子网络而被生成。例如,投影可以被实施为进一步的线性神经网络层,该线性神经网络层可以具有要使用所描述的训练方法进行训练的可训练参数。
[0018]联合鉴别器子网络可以是基于多层感知器。例如,联合鉴别器子网络可以是“ResNet”类型的神经网络,包括残差块和跳过连接。
[0019]损失函数可以是基于联合鉴别器损失项和单一鉴别器损失项的总和。将认识到,在存在多个单一鉴别器损失项的情况下,总和可以包括所有单一鉴别器损失项或单一鉴别器损失项的子集。
[0020]损失函数可以包括应用于损失函数的分量(例如一个分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对生成器神经网络和编码器神经网络进行训练的计算机实现的方法,其中,所述生成器神经网络被配置为基于潜在值集合生成数据项,所述数据项是表示训练数据项集合的分布的样本;其中,所述编码器神经网络被配置为生成相应数据项的潜在值集合;其中,所述方法包括对所述生成器神经网络、所述编码器神经网络和鉴别器神经网络进行联合训练,所述鉴别器神经网络被配置为区分由所述生成器网络生成的样本和不由所述生成器网络生成的所述分布的样本,以及其中,所述鉴别器神经网络被配置为通过由所述鉴别器神经网络处理来区分包括样本部分和潜在部分的输入对;其中,所述输入对的所述样本部分和所述潜在部分包括由所述生成器神经网络生成的所述分布的样本和分别用于生成所述样本的对应潜在值集合或所述训练数据项集合中的训练数据项和由所述编码器神经网络基于所述训练数据项生成的潜在值集合;以及其中,所述训练是基于损失函数,所述损失函数包括基于由所述鉴别器神经网络处理的所述输入对的所述样本部分和所述潜在部分的联合鉴别器损失项和基于所述输入对的所述样本部分或所述潜在部分中的仅一个部分的单一鉴别器损失项。2.根据权利要求1所述的方法,其中,所述单一鉴别器损失项是基于所述输入对的所述样本部分。3.根据权利要求2所述的方法,其中,所述单一鉴别器损失项包括样本鉴别得分,所述样本鉴别得分是基于使用样本鉴别器子网络对所述输入对的所述样本部分进行处理而被生成的。4.根据权利要求3所述的方法,其中,所述样本鉴别得分进一步基于将投影应用于所述样本鉴别器子网络的输出而被生成。5.根据权利要求3和权利要求4中任一项所述的方法,其中,所述样本鉴别器子网络是基于卷积神经网络。6.根据权利要求1所述的方法,其中,所述单一鉴别器损失项是基于所述输入对的所述潜在部分。7.根据权利要求6所述的方法,其中,所述单一鉴别器损失项包括潜在鉴别得分,所述潜在鉴别得分是基于使用潜在鉴别器子网络对所述输入对的所述潜在部分进行处理而被生成的。8.根据权利要求7所述的方法,其中,所述潜在鉴别得分进一步基于将投影应用于所述潜在鉴别器子网络的输出而被生成。9.根据权利要求7和权利要求8中任一项所述的方法,其中,所述潜在鉴别器子网络是基于多层感知器。10.根据前述权利要求中任一项所述的方法,其中,所述损失函数包括多个单一鉴别器损失项。11.根据前述权利要求中任一项所述的方法,其中,所述联合鉴别器损失项包括使用联合鉴别器子网络而被生成的联合鉴别分数。12.根据权利要求11所述的方法,其中,所述联合鉴别器子网络被配置为处理样本鉴别器子网络的输出和潜在鉴别器子网络的输出,其中,所述样本鉴别器子网络被配置为处理
所述输入对的所述样本部分,并且所述潜在鉴别器子网络被配置为处理所述输入对的所述潜在部分。13.根据权利要求11和12中任一项所述的方法,其中,所述联合鉴别得分进一步基于将投影应用于所述联合鉴别器子网络的所述输出而被生成。14.根据权利要求11至权利要求13中任一项所述的方法,其中,所述联合鉴别器子网络是基于多层感知器。15.根据前述权利要求中任一项所述的方法,其中,所述损失函数是基于所述联合鉴别器损失项和所述单一鉴别器损失项的总和。16.根据前述权利要求中任一项所述的方法,其中,所述损失函数包括应用于所述损失函数的分量的铰链函数。17.根据前述权利要求中任一项所述的方法,其中,所述编码器神经网络表示概率分布,并且生成潜在值集合包括从所述概率分布中进行采样。18.根据权利要求17所述的方法,其中,所述编码器神经网络的所述输出具有平均值和标准偏差用于定义正态概率分布。19.根据权利要求17和18中任一项所述的方法,其中,所述潜在值集合是基于重新参数化的采样而被...

【专利技术属性】
技术研发人员:杰弗里
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1