一种基于视频变分自编码器的视频重建方法技术

技术编号:44921567 阅读:19 留言:0更新日期:2025-04-08 19:01
本发明专利技术公开了一种基于视频变分自编码器的视频重建方法,涉及视频重建技术领域。该方法在原始图像解码器的基础上引入一维时域残差模块,构成伪三维残差模块,在伪三维残差模块之后增加单向循环模块,构成视频解码模块;将待重建视频输入至视频变分自编码器的原始图像编码器,得到待重建视频在低维隐空间上的编码特征;将编码特征输入至视频变分自编码器的视频解码模块中,利用伪三维残差模块中的一维时域残差模块加强编码特征中连续视频帧之间的时域局部特征交互,并在单向循环模块中,通过包括历史视频帧特征的隐藏状态对伪三维残差模块输出的视频帧进行时域长距离特征传递,得到重建视频。该方法能够提高重建视频的视觉质量。

【技术实现步骤摘要】

本专利技术涉及视频重建,特别涉及一种基于视频变分自编码器的视频重建方法


技术介绍

1、近些年,结合大模型的人工智能内容生成技术(artificial intelligencegenerated content,aigc)在学界和业界迅猛发展。然而大模型在带来性能优势的同时也为算力和资源带来了巨大的压力,成为aigc实际应用的一大挑战。在图像生成领域,隐扩散生成模型(latent diffusionmodels,ldm)利用变分自编码器将像素空间映射到隐空间,从而将原始需要在高维空间进行的扩散生成过程转换到在低维空间进行,这大大减小了扩散模型实际应用的运算量。因此,以stable diffusion为代表的隐扩散生成模型成为了视觉内容生成算法的又一新范式。

2、现有技术中,相比于图像生成任务,视频生成任务所需的网络更大、数据量更多、训练过程更久,在现实中往往面临资源有限和视频数据缺乏的困境。因此,视频生成模型通常会借助已有图像生成模型作为预训练模型,这一方面便于网络设计,另一方面在图像上的预训练知识也为视频生成模型的训练提供了基础,从而加速训练本文档来自技高网...

【技术保护点】

1.一种基于视频变分自编码器的视频重建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视频解码模块包括多组伪三维残差模块和单向循环模块;所述待重建视频的每一个视频帧均对应一组伪三维残差模块和单向循环模块。

3.根据权利要求2所述的方法,其特征在于,所述伪三维残差模块包括二维空域残差模块和一维时域残差模块;所述利用所述伪三维残差模块中的一维时域残差模块加强所述编码特征中连续视频帧之间的时域局部特征交互,包括:

4.根据权利要求3所述的方法,其特征在于,所述一维时域残差模块包括带有跳连分支的多个时域运算层;所述将所述空域上的视觉特征...

【技术特征摘要】

1.一种基于视频变分自编码器的视频重建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视频解码模块包括多组伪三维残差模块和单向循环模块;所述待重建视频的每一个视频帧均对应一组伪三维残差模块和单向循环模块。

3.根据权利要求2所述的方法,其特征在于,所述伪三维残差模块包括二维空域残差模块和一维时域残差模块;所述利用所述伪三维残差模块中的一维时域残差模块加强所述编码特征中连续视频帧之间的时域局部特征交互,包括:

4.根据权利要求3所述的方法,其特征在于,所述一维时域残差模块包括带有跳连分支的多个时域运算层;所述将所述空域上的视觉特征输入至所述一维时域残差模块,得到所述视频帧与相邻帧进行交互后的时域局部交互特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述时域运算层的通道流程包括:分组归一化、swish激活、随机失活层和时域方向的一维卷积。

6.根据权利要求2所述的方法,其特征在于,每一个单向循环模块的输入端包括两部分,一部分在模型深度方向与对应伪三维残差模块的输出端连接,另一部分在时域方向上与上一视频帧对应的单向循环模块的隐藏状态输出端连接;所述单向循环模块包括窗口互注意力特征对齐单元、卷积单元、...

【专利技术属性】
技术研发人员:顿玉洁张一帆拓子曦
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1