【技术实现步骤摘要】
用于训练潜在变量模型的方法和系统
[0001]本公开总体上涉及用于计算机学习的系统和方法,其可以提供改进的计算机性能、特征和用途。更特别地,本公开涉及用于改进性能的学习深度潜在变量模型的系统和方法。
技术介绍
[0002]深度生成模型在许多领域取得了巨大的成功,诸如图像生成、图像恢复、图像表示、图像解耦、异常检测等。这些模型通常包括简单和富有表现力的生成器网络,它们是潜在变量模型,假设每个观察到的示例是由潜在变量的低维向量生成的,并且潜在向量遵循非信息性先验分布,诸如高斯分布。由于高维视觉数据(例如图像)通常位于嵌入在高维空间中的低维流形上,因此对于无监督表示学习而言,学习视觉数据的潜在变量模型在计算机视觉领域非常重要。挑战主要来自对每个观察的潜在变量的推断,这通常依赖于马尔科夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)方法从难以解析的后验分布(即给定观察样本的潜在变量的条件分布)中抽取适当样本。由于潜在变量的后验分布是由高度非线性的深度神经网络参数化的,因此基于MCMC的推断可能会遇到非收敛和 ...
【技术保护点】
【技术特征摘要】
1.一种用于训练潜在变量模型的计算机实现方法,包括:通过短期马尔科夫链蒙特卡洛(MCMC)推断从潜在变量模型生成的多个观察示例中的每个的潜在向量,以获得推断的潜在向量群;通过优化传输(OT)校正,将推断的潜在向量群移动到先验分布;以及基于校正后的潜在向量和相应的观察示例,通过梯度下降更新潜在变量模型的模型参数。2.根据权利要求1所述的计算机实现的方法,其中,所述短期MCMC是迭代过程,在每次迭代中运行有限数量的朗之万动力学步骤以进行推断。3.根据权利要求2所述的计算机实现的方法,其中对于每次迭代,所述短期MCMC从从高斯分布随机采样的噪声分布开始,或者从在先前迭代中获得的推断结果开始。4.根据权利要求2所述的计算机实现的方法,其中,所述OT校正在所述短期MCMC的预定次数的迭代之后执行。5.根据权利要求1所述的计算机实现的方法,其中,所述OT校正包括以下步骤:给定推断的潜在向量群和从先验随机采样的多个样本,使用梯度下降优化对双射OT映射进行迭代优化,所述双射OT映射包括多个传输路径以将多个推断的潜在向量映射到多个样本;当满足停止条件时,构建双射OT映射以获得包...
【专利技术属性】
技术研发人员:谢建文,安东生,李平,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。