变分自编码器的训练方法、视频生成方法及对应装置制造方法及图纸

技术编号:46094734 阅读:10 留言:0更新日期:2025-08-12 18:13
本申请实施例公开了一种变分自编码器的训练方法、视频生成方法及对应装置。其中主要技术方案包括:获取包括多个视频样本的训练数据;利用训练数据训练变分自编码器;其中,训练包括:将视频样本分别输入变分自编码器和视频基础模型,获取变分自编码器中编码器输出的隐空间张量和视频基础模型输出的第一张量;将隐空间张量映射为第二张量,第二张量与第一张量的形状相同;利用第一张量和第二张量确定损失函数的取值,利用损失函数的取值更新变分自编码器的模型参数。通过上述方式变分自编码器能够继承视频基础模型的语义先验,提高变分自编码器的语义理解能力,进而提高基于变分自编码器的视频生成质量。

【技术实现步骤摘要】

本申请涉及人工智能和计算机视觉,特别是涉及变分自编码器的训练方法、视频生成方法及对应装置


技术介绍

1、近年来,随着深度学习的快速发展,aigc(ai-generated content,人工智能生成内容)取得了突破性进展。其中,基于扩散模型的文生图、文生视频技术因其出色的生成质量和多样性,成为了主流的研究和应用方向。扩散模型通过一个逐步去噪的过程,将一个噪声张量变换为符合用户描述的媒体内容(例如图像或视频)。

2、为了降低像素空间去噪的训练和推理成本,提出了在vae(variationalautoencoder,变分自编码器)的隐空间去噪的技术,即基于vae提取的隐空间张量进行去噪处理。而目前vae提取的隐空间张量主要包含媒体内容的低层次信息,语义性差,从而导致最终的视频生成质量差。


技术实现思路

1、有鉴于此,本申请提供了一种vae的训练方法、视频生成方法及对应装置,用以提高vae提取的隐空间张量的语义性,进而提高视频生成质量。

2、本申请提供了如下方案:p>

3、第一方本文档来自技高网...

【技术保护点】

1.一种变分自编码器的训练方法,所述变分自编码器包括编码器和解码器;其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述变分自编码器中所述编码器输出的隐空间张量和所述视频基础模型输出的第一张量,包括:获取所述编码器中多个编码网络层分别输出的隐空间张量,以及获取所述视频基础模型中多个编码网络层分别输出的第一张量;

3.根据权利要求1或2所述的方法,其特征在于,所述至少利用所述第一损失函数项的取值,确定所述损失函数的取值,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述训练还包括:将所述视频样本和所述隐空间张量进行同...

【技术特征摘要】

1.一种变分自编码器的训练方法,所述变分自编码器包括编码器和解码器;其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述变分自编码器中所述编码器输出的隐空间张量和所述视频基础模型输出的第一张量,包括:获取所述编码器中多个编码网络层分别输出的隐空间张量,以及获取所述视频基础模型中多个编码网络层分别输出的第一张量;

3.根据权利要求1或2所述的方法,其特征在于,所述至少利用所述第一损失函数项的取值,确定所述损失函数的取值,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述训练还包括:将所述视频样本和所述隐空间张量进行同样的仿射变换,将所述仿射变换后得到的隐空间张量输入所述解码器,获取所述解码器解码得到的第二还原视频;<...

【专利技术属性】
技术研发人员:田兴业王学博姜博源陶鑫万鹏飞张迪盖坤
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1