当前位置: 首页 > 专利查询>辉达公司专利>正文

具有噪声对比先验的潜在变量生成性模型制造技术

技术编号:33080015 阅读:11 留言:0更新日期:2022-04-15 10:31
本发明专利技术公开了具有噪声对比先验的潜在变量生成性模型,一个实施例阐述了用于生成图像(或其他生成性输出)的技术。该技术包括:确定多个训练图像中包括的一组视觉属性的一个或更多个第一值,其中该一组视觉属性经由先验网络进行编码。该技术还包括:将重加权因子应用于第一值以生成该一组视觉属性的一个或更多个第二值,其中第二值表示朝向该一组视觉属性的一个或更多个第三值移位的第一值,其中该一个或更多个第三值已经经由编码器网络生成。该技术还包括:经由解码器网络对第二值执行一个或更多个解码操作,以生成多个训练图像中未包括的新图像。括的新图像。括的新图像。

【技术实现步骤摘要】
具有噪声对比先验的潜在变量生成性模型
[0001]相关申请的交叉引用
[0002]本申请要求于2020年9月25日提交的、序列号为63/083,635的题为“具有噪声对比先验的变分自动编码器(VARIATIONAL AUTOENCODERS WITH NOISE CONTRASTIVE PRIORS)”的美国临时专利申请的优先权权益。该相关申请的主题在此通过引用并入本文中。


[0003]本公开的实施例总地涉及机器学习和计算机科学,更具体地,涉及具有噪声对比先验的潜在变量生成性模型。

技术介绍

[0004]在在机器学习中,生成性模型通常包括深度神经网络和/或其他类型的机器学习模型,这些模型经过训练以生成新的数据实例。例如,可以在包括大量猫的图像的训练数据集上训练生成性模型。在训练期间,生成性模型“学习”图像中描绘的各种猫的视觉属性。然后,生成性模型可以使用这些学习到的视觉属性来产生训练数据集中未找到的猫的新图像。
[0005]变分自动编码器(VAE)是一种生成性模型。VAE通常包括编码器网络,该编码器网络被训练为将训练数据集中的数据点转换为“潜在变量”的值,其中每个潜在变量表示训练数据集中的数据点的属性。VAE还包括先验网络,该先验网络被训练为学习与训练数据集相关联的潜在变量的分布,其中潜在变量的分布表示训练数据集中不同属性的变化和出现。VAE还包括解码器网络,该解码器网络被训练为将编码器网络生成的潜在变量值转换回与训练数据集中的数据点基本相同的数据点。在训练完成后,通过从先验网络在训练期间学习的分布中采样潜在变量值,并经由解码器网络将这些采样的值转换为新的数据点,可以使用经训练的VAE生成与原始训练数据集中的数据相似的新数据。以这种方式生成的每个新数据点可以包括与训练数据集中的数据点的一个或更多个属性相似(但不完全相同)的属性。
[0006]例如,可以在包括猫的图像的训练数据集上训练VAE,其中每个图像包括数万到数百万像素。经训练的VAE将包括编码器网络,该编码器网络将每个图像转换为数百或数千个数字潜在变量值。每个潜在变量将代表用于训练VAE的一个或更多个图像中找到的相应视觉属性(例如,图像中猫的脸、皮毛、身体、表情、姿势等的外观)。先验网络将捕获训练数据集中所有图像的视觉属性的变化和出现,作为潜在变量的相应分布(例如,作为均值、标准偏差和/或与数字潜在变量值相关联的其他汇总统计数据)。在训练完成后,可以使用经训练的VAE通过采样落入先验网络学习的潜在变量分布中的潜在变量值,并经由解码器网络将那些采样到的潜在变量值转换为在附加的猫图像中的新的像素值,来生成未包括在训练数据集中的附加的猫图像。
[0007]使用VAE生成新数据的一个缺点称为“先验洞问题”,其中在先验网络基于给定训练数据集学习的潜在变量分布中,高概率被分配给与训练数据集中的任何实际数据不对应
的潜在变量值区域。这些错误高概率的区域通常是由VAE中的解码器能够学习的潜在变量值的分布的复杂性或“表达性”的限制而产生。此外,由于这些区域不反映训练数据集中任何实际数据点的属性,因此当VAE中的解码器网络将来自这些区域的样本转换为新数据点时,这些新数据点通常与训练数据集中的数据不相似。
[0008]继续上述示例,在训练期间,VAE中的编码器可将包括猫图像的训练数据集转换为占据第一组区域的潜在变量值。反过来,先验网络从训练数据集中学习的潜在变量的分布可以包括该第一区域的高概率,这反映第一组区域内的潜在变量值对应于实际训练数据的事实。然而,由先验网络学习的分布还可以包括第二组区域的高概率,该第二组区域不包括编码器从训练数据集生成的任何潜在变量值。在这种情况下,该第二组区域的高概率是错误的,并且错误地表明第二组区域包括对应于实际训练数据的属性的潜在变量值。如上所述,在此类情况下,先验网络学习到的分布与编码器网络从训练数据集中产生的潜在变量的实际分布不匹配,因为先验网络学到的分布比编码器网络产生的实际分布更简单或不具有“表达性”。因此,如果在由先验网络学习的潜在变量的分布中落在第二组区域内的潜在变量值被采样并由VAE中的解码器网络转换成新的像素值,所产生的图像将无法与猫相似。
[0009]解决先验网络学习到的潜在变量分布与编码器网络从训练数据集生成的潜在变量实际分布之间不匹配的一种方法是使用采用迭代马尔可夫链蒙特卡罗(MCMC)采样技术的基于能量的模型训练来训练机器学习模型学习更复杂的、或更具“表达性”的潜在变量分布,以表示训练数据集。但是,每个MCMC采样步骤取决于上一个采样步骤的结果,这会阻止并行执行MCMC采样。连续执行不同的MCMC步骤在计算上既低效又耗时。
[0010]如上所述,本领域需要的是使用变分自动编码器生成新数据的更有效技术。

技术实现思路

[0011]本专利技术的一个实施例阐述了用于改进生成性模型产生的生成性输出的技术。该技术包括:从由包括在生成性模型中的先验网络学习的一组潜在变量的分布中采样一个或更多个第一值。该技术还包括:将重新加权因子应用于所述一个或更多个第一值,以便生成所述一组潜在变量的一个或更多个第二值,其中所述重新加权因子基于一个或更多个分类器而确定,所述分类器用于区分从先验分布中采样的值和经由包括在生成性模型中的编码器网络生成的所述一组潜在变量的值。该技术还包括:经由包括在生成性模型中的解码器网络对一个或更多个第二值执行一个或更多个解码操作以产生生成性输出
[0012]与现有技术相比,所公开技术的至少一个技术优势在于,与通常使用常规变分自动编码器产生的输出相比,所公开技术产生的生成式输出看起来更逼真,更类似于训练数据集中的数据。另一个技术优势是,利用所公开的技术,由编码器从训练数据集产生的潜在变量的复杂分布可以由机器学习模型来近似,该机器学习模型以相对于现有技术更计算有效的方式来训练和执行。与现有技术方法相比,这些技术优势提供了一种或更多种技术改进。
附图说明
[0013]为了能够详细理解各个实施例的上述特征,可以通过参考各个实施例(其中一些在附图中示出)对上述简要总结的专利技术概念进行更具体的描述。然而,应注意,附图仅示出
了本专利技术概念的典型实施例,因此不应被视为以任何方式限制范围,并且存在其他同样有效的实施例。
[0014]图1示出了配置为实现各个实施例的一个或更多个方面的计算设备。
[0015]图2是根据各个实施例的图1的训练引擎和执行引擎的更详细说明。
[0016]图3A是根据各个实施例的图2的VAE的分层版本中包括的编码器的示例架构。
[0017]图3B是根据各个实施例的图2的VAE的分层版本中包括的生成式模型的示例架构。
[0018]图4A是根据各个实施例的图2的VAE的分层版本中包括的编码器中包括的示例残差单元。
[0019]图4B是根据各个实施例的图2的VAE的分层版本中包括的生成性模型中的示例性残差单元。
[0020]图5A是根据各个实施例的包括在可与图2的VAE的分层版本一起使用的分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于使用变分自动编码器生成图像的计算机实现的方法,所述方法包括:确定包括在多个训练图像中的视觉属性集合的一个或更多个第一值,其中所述视觉属性集合已经经由先验网络编码;将重新加权因子应用于所述一个或更多个第一值,以便为所述视觉属性集合生成一个或更多个第二值,其中所述一个或更多个第二值表示向所述视觉属性集合的一个或更多个第三值移位的一个或更多个第一值,其中所述一个或更多个第三值已经经由编码器网络生成;以及经由解码器网络对所述一个或更多个第二值执行一个或更多个解码操作,以生成不包括在所述多个训练图像中的新图像。2.根据权利要求1所述的计算机实现的方法,其中将所述重新加权因子应用于所述一个或更多个第一值包括:基于分类器生成所述重新加权因子,所述分类器区分从所述视觉属性集合中采样的值和由所述编码器网络从所述多个训练图像生成的值。3.根据权利要求1所述的计算机实现的方法,其中所述新图像包括至少一个面部。4.一种用于使用生成性模型生成数据的计算机实现的方法,所述方法包括:从由包括在所述生成性模型中的先验网络学习的潜在变量的分布中采样一个或更多个第一值;将重新加权因子应用于所述一个或更多个第一值,以便为所述潜在变量生成一个或更多个第二值,其中所述重新加权因子基于一个或更多个分类器而生成,所述分类器用于区分从所述分布中采样的值和经由包括在所述生成性模型中的编码器网络生成的所述潜在变量的值;以及经由包括在所述生成性模型中的解码器网络对所述一个或更多个第二值执行一个或更多个解码操作以产生生成性输出。5.根据权利要求4所述的计算机实现的方法,还包括:基于二进制交叉熵损失训练所述一个或更多个分类器。6.根据权利要求4所述的计算机实现的方法,其中在训练所述一个或更多个分类器之前,使用训练数据集训练所述先验网络、所述编码器网络和所述解码器网络。7.根据权利要求4所述的计算机实现的方法,其中由所述先验网络学习的潜在变量的分布包括潜在变量的层次,并且采样所述一个或更多个第一值包括:从包括在所述潜在变量的层次中的第一组潜在变量中采样第一值;以及基于所述第一值和特征映射,从包括在所述潜在变量的层次中的第二组潜在变量中采样第二值。8.根据权利要求7所述的计算机实现的方法,其中所述一个或更多个分类器包括第一分类器和第二分类器,所述第一分类器区分使用所述先验网络从所述第一组潜在变量中采样的第三值和由所述编码器网络生成的所述第一组潜在变量的第四值,所述第二分类器区分使用所述先验网络从所述第二组潜在变量中采样的第五值和由所述编码器网络生成的所述第二组潜在变量的第六值。9.根据权利要求4所述的计算机实现的方法,其中将所述重新加权因子应用于所述一个或更多个第一值包括:基于与所述重新加权因子成比例的重要性权重对所述一个或更多个第一值重新采样。
10.根据权利要求4所述的计算机实现的方法,其中将所述重新加权因子应用于所述一个或更多个第一值包括:基于与所述分布和所述重新加权因子相关联的能量函数的梯度迭代地更新所述一个或更多个第一值。11.根据权利要求10所述的计算机实现的方法,其中所述能量函数包括所述分布和所述重新加权因子之间的差。12....

【专利技术属性】
技术研发人员:A
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1