【技术实现步骤摘要】
基于VAE
‑
GAN的视频重构的方法、装置及存储介质
[0001]本专利技术涉及AI图像领域,尤其涉及一种基于VAE
‑
GAN的视频重构的方法、装置以及存储介质。
技术介绍
[0002]目前,图像到视频的转换已经成为计算机视觉中一个重要而广泛研究的领域。它在多媒体内容生成中产生了许多令人兴奋的应用,例如生成面部表情视频时的情感,就可以生成与输入相关的视频。近期,一些列学者如Xueetal、Walkeretal、Babaeizadehetal、Lietal、Wangetal、Panetal等人,利用变分自动编码器(VAE)结构对视频中的运动随机性建模,以生成不同的可能未来帧,它使用均方误差(MSE)等像素级损失函数来最小化对数似然和最大化变分上限,使模型训练变得易于处理。但是转换任务是视频生成任务的一部分,比需要多个输入的视频预测任务更困难。然而,像素级的损失会导致模型预测的结果仅仅与平均值对应,也就是说,上述模型会产生模糊的样本。
[0003]除VAE外,生成式对抗网络(GAN)已经成为视频时代的一个有前途的框架,GAN通过对抗性学习将模糊样本从自然样本中区分出来,与VAE算法相比,GAN算法能获得更真实的合成结果。但是,根据理论研究,GAN仍然存在不稳定的梯度和模型坍塌问题,限制了其在复杂动作视频生成中的应用。GAN相较于VAE能获得更真实的结果,而VAE对模型坍塌更具有鲁棒性。这导致人们试图结合GAN和VAE的优点来获得更高水平的图像质量,同时避免不稳定的梯度。例如在现 ...
【技术保护点】
【技术特征摘要】
1.一种基于VAE
‑
GAN的视频重构的方法,其特征在于,包括以下步骤:获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;将所述单帧图像以及所述视频属性输入至预先训练好的VAE
‑
GAN模型中进行视频重建,所述VAE
‑
GAN模型包括VAE编码器网络、VAE解码器网络、内容提取器网络以及生成对抗式GAN网络,其中,将所述视频序列输入至所述VAE编码器网络得到运动向量,将所述单帧图像输入至所述内容提取器网络进行语义提取得到内容特征后,将所述运动向量、所述视频属性以及所述内容特征输入至所述VAE解码器网络重建得到模糊图像;其中所述VAE解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像;将所述模糊图像与所述视频序列输入至所述GAN网络进行真伪分类,输出重建图像得到重建视频。2.如权利要求1所述的基于VAE
‑
GAN的视频重构的方法,其特征在于,通过所述VAE编码器网络输出的均值和方差参数化构建高斯模型,所述运动向量还可以从所述高斯模型中采样得到,其中,所述高斯模型均值为0,方差为1。3.如权利要求2所述的基于VAE
‑
GAN的视频重构的方法,其特征在于,获取视频序列,对所述视频序列进行预处理具体为,对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像;将所述视频序列的属性通过One
‑
Hot编码进行特征数字化处理,得到视频属性的单热向量。4.如权利要求3所述的基于VAE
‑
GAN的视频重构的方法,其特征在于,所述辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类。5.如权利要求4所述的基于VAE
‑
GAN的视频重构的方法,其特征在于,主解码器包括多个二维的反卷积模块和多个三维卷积层;所述辅助解码器包括多个二维反卷积模块,其中每个二维反卷积模块包括两个二维卷积层和一个上采样算子。6.如权利要求5所述的基于VAE
‑
GAN的视频重构的方法,其特征在于,基于GAN网络模型构建所述VAE
‑
GAN模型,所述VAE...
【专利技术属性】
技术研发人员:王胜利,宋国云,刘沛,任建新,侯正中,郑婕,张翔,谢石木林,林平远,张志宏,刘旭杰,汤泽毅,粘为帆,许倩,
申请(专利权)人:国网信通亿力科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。