【技术实现步骤摘要】
本申请涉及人工智能和计算机视觉,特别是涉及变分自编码器的训练方法、视频生成方法及对应装置。
技术介绍
1、近年来,随着深度学习的快速发展,aigc(ai-generated content,人工智能生成内容)取得了突破性进展。其中,基于扩散模型的文生图、文生视频技术因其出色的生成质量和多样性,成为了主流的研究和应用方向。扩散模型通过一个逐步去噪的过程,将一个噪声张量变换为符合用户描述的媒体内容(例如图像或视频)。
2、为了降低像素空间去噪的训练和推理成本,提出了在vae(variationalautoencoder,变分自编码器)的隐空间去噪的技术,即基于vae提取的隐空间张量进行去噪处理。而目前vae提取的隐空间张量主要包含媒体内容的低层次信息,语义性差,从而导致最终的视频生成质量差。
技术实现思路
1、有鉴于此,本申请提供了一种vae的训练方法、视频生成方法及对应装置,用以提高vae提取的隐空间张量的语义性,进而提高视频生成质量。
2、本申请提供了如下方案:
...【技术保护点】
1.一种变分自编码器的训练方法,所述变分自编码器包括编码器和解码器;其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述变分自编码器中所述编码器输出的隐空间张量和所述视频基础模型输出的第一张量,包括:获取所述编码器中多个编码网络层分别输出的隐空间张量,以及获取所述视频基础模型中多个编码网络层分别输出的第一张量;
3.根据权利要求1或2所述的方法,其特征在于,所述至少利用所述第一损失函数项的取值,确定所述损失函数的取值,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述训练还包括:将所述视频样本和
...【技术特征摘要】
1.一种变分自编码器的训练方法,所述变分自编码器包括编码器和解码器;其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述变分自编码器中所述编码器输出的隐空间张量和所述视频基础模型输出的第一张量,包括:获取所述编码器中多个编码网络层分别输出的隐空间张量,以及获取所述视频基础模型中多个编码网络层分别输出的第一张量;
3.根据权利要求1或2所述的方法,其特征在于,所述至少利用所述第一损失函数项的取值,确定所述损失函数的取值,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述训练还包括:将所述视频样本和所述隐空间张量进行同样的仿射变换,将所述仿射变换后得到的隐空间张量输入所述解码器,获取所述解码器解码得到的第二还原视频;<...
【专利技术属性】
技术研发人员:田兴业,王学博,姜博源,陶鑫,万鹏飞,张迪,盖坤,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。