【技术实现步骤摘要】
本专利技术涉及视频重建,特别涉及一种基于视频变分自编码器的视频重建方法。
技术介绍
1、近些年,结合大模型的人工智能内容生成技术(artificial intelligencegenerated content,aigc)在学界和业界迅猛发展。然而大模型在带来性能优势的同时也为算力和资源带来了巨大的压力,成为aigc实际应用的一大挑战。在图像生成领域,隐扩散生成模型(latent diffusionmodels,ldm)利用变分自编码器将像素空间映射到隐空间,从而将原始需要在高维空间进行的扩散生成过程转换到在低维空间进行,这大大减小了扩散模型实际应用的运算量。因此,以stable diffusion为代表的隐扩散生成模型成为了视觉内容生成算法的又一新范式。
2、现有技术中,相比于图像生成任务,视频生成任务所需的网络更大、数据量更多、训练过程更久,在现实中往往面临资源有限和视频数据缺乏的困境。因此,视频生成模型通常会借助已有图像生成模型作为预训练模型,这一方面便于网络设计,另一方面在图像上的预训练知识也为视频生成模型的训练提供
...【技术保护点】
1.一种基于视频变分自编码器的视频重建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述视频解码模块包括多组伪三维残差模块和单向循环模块;所述待重建视频的每一个视频帧均对应一组伪三维残差模块和单向循环模块。
3.根据权利要求2所述的方法,其特征在于,所述伪三维残差模块包括二维空域残差模块和一维时域残差模块;所述利用所述伪三维残差模块中的一维时域残差模块加强所述编码特征中连续视频帧之间的时域局部特征交互,包括:
4.根据权利要求3所述的方法,其特征在于,所述一维时域残差模块包括带有跳连分支的多个时域运算层;所述将
...【技术特征摘要】
1.一种基于视频变分自编码器的视频重建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述视频解码模块包括多组伪三维残差模块和单向循环模块;所述待重建视频的每一个视频帧均对应一组伪三维残差模块和单向循环模块。
3.根据权利要求2所述的方法,其特征在于,所述伪三维残差模块包括二维空域残差模块和一维时域残差模块;所述利用所述伪三维残差模块中的一维时域残差模块加强所述编码特征中连续视频帧之间的时域局部特征交互,包括:
4.根据权利要求3所述的方法,其特征在于,所述一维时域残差模块包括带有跳连分支的多个时域运算层;所述将所述空域上的视觉特征输入至所述一维时域残差模块,得到所述视频帧与相邻帧进行交互后的时域局部交互特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述时域运算层的通道流程包括:分组归一化、swish激活、随机失活层和时域方向的一维卷积。
6.根据权利要求2所述的方法,其特征在于,每一个单向循环模块的输入端包括两部分,一部分在模型深度方向与对应伪三维残差模块的输出端连接,另一部分在时域方向上与上一视频帧对应的单向循环模块的隐藏状态输出端连接;所述单向循环模块包括窗口互注意力特征对齐单元、卷积单元、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。