基于VAE-GAN的视频重构的方法、装置及存储介质制造方法及图纸

技术编号:34043373 阅读:11 留言:0更新日期:2022-07-06 14:01
本发明专利技术涉及一种基于VAE

Method, device and storage medium of video reconstruction based on vae-gan

【技术实现步骤摘要】
基于VAE

GAN的视频重构的方法、装置及存储介质


[0001]本专利技术涉及AI图像领域,尤其涉及一种基于VAE

GAN的视频重构的方法、装置以及存储介质。

技术介绍

[0002]目前,图像到视频的转换已经成为计算机视觉中一个重要而广泛研究的领域。它在多媒体内容生成中产生了许多令人兴奋的应用,例如生成面部表情视频时的情感,就可以生成与输入相关的视频。近期,一些列学者如Xueetal、Walkeretal、Babaeizadehetal、Lietal、Wangetal、Panetal等人,利用变分自动编码器(VAE)结构对视频中的运动随机性建模,以生成不同的可能未来帧,它使用均方误差(MSE)等像素级损失函数来最小化对数似然和最大化变分上限,使模型训练变得易于处理。但是转换任务是视频生成任务的一部分,比需要多个输入的视频预测任务更困难。然而,像素级的损失会导致模型预测的结果仅仅与平均值对应,也就是说,上述模型会产生模糊的样本。
[0003]除VAE外,生成式对抗网络(GAN)已经成为视频时代的一个有前途的框架,GAN通过对抗性学习将模糊样本从自然样本中区分出来,与VAE算法相比,GAN算法能获得更真实的合成结果。但是,根据理论研究,GAN仍然存在不稳定的梯度和模型坍塌问题,限制了其在复杂动作视频生成中的应用。GAN相较于VAE能获得更真实的结果,而VAE对模型坍塌更具有鲁棒性。这导致人们试图结合GAN和VAE的优点来获得更高水平的图像质量,同时避免不稳定的梯度。例如在现有技术CN111669587B一种视频图像的拟态压缩方法以及US11042758B2中都采用了VAE

GAN网络结构,使用了神经网络来训练数据。但两者均未解决如何根据单帧的图像生成连续的高质量视频的技术问题,而上述技术方案使用了原版的VAE

GAN模型分别实现对于视频图像拟态压缩以及车辆图像的分析再生成。现有的VAE

GAN方法中,由于图像到视频任务只有一个输入,不像大多数视频预测任务可以通过多个输入来提供运动向量无法图像生成高质量的视频。上述现有技术并没有进行模型架构的调整,所生成的图像即不是高质量的,也无法完成单帧图像到高精度视频的转换。

技术实现思路

[0004]为解决上述现有技术的问题,本专利技术实施例提供了一种基于VAE

GAN的视频重构的方法,包括以下步骤:
[0005]获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;
[0006]将所述单帧图像以及所述视频属性输入至预先训练好的VAE

GAN模型中进行视频重建,所述VAE

GAN模型包括VAE编码器网络、VAE解码器网络、内容提取器网络以及生成对抗式GAN网络,
[0007]其中,将所述视频序列输入至所述VAE编码器网络得到运动向量,将所述单帧图像输入至所述内容提取器网络进行语义提取得到内容特征后,将所述运动向量、所述视频属性以及所述内容特征输入至所述VAE解码器网络重建得到模糊图像;
[0008]其中所述VAE解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像。
[0009]将所述模糊图像与所述视频序列输入至所述GAN网络进行真伪分类,输出重建图像得到重建视频。
[0010]在上述方案的基础上本专利技术还可以做如下改进。
[0011]进一步,通过所述VAE编码器网络输出的均值和方差参数化构建高斯模型,所述运动向量还可以从所述高斯模型中采样得到,其中,所述高斯模型均值为0,方差为1。
[0012]进一步,获取视频序列,对所述视频序列进行预处理具体为,对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像;将所述视频序列的属性通过One

Hot编码进行特征数字化处理,得到视频属性的单热向量。进一步,所述辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类。
[0013]进一步,主解码器包括多个二维的反卷积模块和多个三维卷积层;所述辅助解码器包括多个二维反卷积模块,其中每个二维反卷积模块包括两个二维卷积层和一个上采样算子。
[0014]进一步,基于GAN网络模型构建所述VAE

GAN模型,所述VAE

GAN模型包括VAE组件以及辨别器网络,所述VAE组件包括所述VAE编码器网络、VAE解码器网络以及内容提取器网络,所述VAE组件用于对所述运动向量、所述内容特征以及视频属性进行重建,得到重建视频;
[0015]训练所述VAE

GAN模型包括:获取视频数据集,利用所述视频数据集对所述VAE

GAN模型进行多次迭代训练,并通过所述辨别器网络将所述重建视频与所述视频数据集中的视频进行损失比对,并根据损失比对结果对所述VAE

GAN模型的参数进行更新,直至所述辨别器网络无法识别所述重建视频的真伪。
[0016]进一步,对于所述VAE组件进行训练时,将所述视频序列输入至所述VAE编码器网络得到运动向量,对于VAE

GAN模型进行训练时,所述运动向量通过所述VAE编码器网络输出的均值和方差参数化构建高斯模型,从所述高斯模型中采样得到。
[0017]进一步,通过预设的身份特征匹配损失函数来最小化高层特征之间的距离,利用预设的连接特征损失函数降低所述VAE组件和所述辨别器网络连接的特征损失,所述身份特征匹配损失函数表达式如下:
[0018][0019]其中,V表示视频序列,n为视频属性,ψ
‑1为预训练时深度卷积网络输出的张量,t为所述视频序列的帧数,是视频序列的首帧图像,还有和分别是视频序列和重建视频的第t帧图像;
[0020]所述连接特征匹配损失函数表达式如下:
[0021][0022]其中,I0为视频序列V的首帧图像,G为重建视频,c为视频属性,E
m
(V)为运动向量,I
t
和为视频序列V和生成视频的第t帧图像,f
DV
为所述辨别器网络中三维卷积层输出的张量,f
DI
为所述辨别器网络中二维卷积层输出的张量。
[0023]本专利技术另一个目的在于提供一种基于VAE

GAN的视频重构的装置,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上述的基于VAE

GAN的视频重构的方法。
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于VAE

GAN的视频重构的方法,其特征在于,包括以下步骤:获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;将所述单帧图像以及所述视频属性输入至预先训练好的VAE

GAN模型中进行视频重建,所述VAE

GAN模型包括VAE编码器网络、VAE解码器网络、内容提取器网络以及生成对抗式GAN网络,其中,将所述视频序列输入至所述VAE编码器网络得到运动向量,将所述单帧图像输入至所述内容提取器网络进行语义提取得到内容特征后,将所述运动向量、所述视频属性以及所述内容特征输入至所述VAE解码器网络重建得到模糊图像;其中所述VAE解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像;将所述模糊图像与所述视频序列输入至所述GAN网络进行真伪分类,输出重建图像得到重建视频。2.如权利要求1所述的基于VAE

GAN的视频重构的方法,其特征在于,通过所述VAE编码器网络输出的均值和方差参数化构建高斯模型,所述运动向量还可以从所述高斯模型中采样得到,其中,所述高斯模型均值为0,方差为1。3.如权利要求2所述的基于VAE

GAN的视频重构的方法,其特征在于,获取视频序列,对所述视频序列进行预处理具体为,对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像;将所述视频序列的属性通过One

Hot编码进行特征数字化处理,得到视频属性的单热向量。4.如权利要求3所述的基于VAE

GAN的视频重构的方法,其特征在于,所述辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类。5.如权利要求4所述的基于VAE

GAN的视频重构的方法,其特征在于,主解码器包括多个二维的反卷积模块和多个三维卷积层;所述辅助解码器包括多个二维反卷积模块,其中每个二维反卷积模块包括两个二维卷积层和一个上采样算子。6.如权利要求5所述的基于VAE

GAN的视频重构的方法,其特征在于,基于GAN网络模型构建所述VAE

GAN模型,所述VAE...

【专利技术属性】
技术研发人员:王胜利宋国云刘沛任建新侯正中郑婕张翔谢石木林林平远张志宏刘旭杰汤泽毅粘为帆许倩
申请(专利权)人:国网信通亿力科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1