视频生成方法、非易失性存储介质及电子设备技术

技术编号：34168841 阅读：62 留言：0更新日期：2022-07-17 10:16

本申请公开了一种视频生成方法、非易失性存储介质及电子设备。其中，该方法包括：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。本申请解决了现有技术中生成动作视频的质量较低，且存在较为明显的时域抖动和跳变的技术问题。域抖动和跳变的技术问题。域抖动和跳变的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成方法、非易失性存储介质及电子设备

[0001]本申请涉及视频处理领域，具体而言，涉及一种视频生成方法、非易失性存储介质及电子设备。

技术介绍

[0002]人物动作视频生成，也称为“静转动”，目标是根据给定静态图像，通过姿态驱动的编辑手段生成新的运动视频，让图像中的人物动起来。这一问题在电商宣传，智能视觉创作，影视制作等方向均有应用需求。
[0003]现有技术中，受到算法复杂度的限制，通常只能处理256分辨率的人体图像，且生成视频质量较低，时域一致性较差，存在较为明显的抖动和跳变(flickering)。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种视频生成方法、非易失性存储介质及电子设备，以至少解决现有技术中生成动作视频的质量较低，且存在较为明显的时域抖动和跳变的技术问题。
[0006]根据本申请实施例的一个方面，提供了一种视频生成方法，包括：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。
[0007]根据本申请实施例的另一方面，还提供了另一种视频生成方法，包括：接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频发送至服务端；接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，包括：获取源图像和驱动视频，其中，所述源图像用于描述目标对象的外观信息，所述驱动视频用于描述所述目标对象的动作信息；基于所述源图像和所述驱动视频生成目标视频。2.根据权利要求1所述的视频生成方法，其特征在于，基于所述源图像和所述驱动视频生成所述目标视频包括：基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到目标运动流数据；利用所述源图像和所述目标运动流数据逐帧确定多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频。3.根据权利要求2所述的视频生成方法，其特征在于，基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到所述目标运动流数据包括：基于所述源图像和所述驱动视频的多个不同时刻中每个时刻对应的驱动帧逐帧进行多尺度运动估计，得到初始运动流数据；对所述初始运动流数据进行上采样处理，得到所述目标运动流数据。4.根据权利要求2所述的视频生成方法，其特征在于，利用所述源图像和所述目标运动流数据逐帧确定所述多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频包括：将所述源图像输入至少一个编码层，输出多尺度图像特征；对所述目标运动流数据中与所述多尺度图像特征中每个尺度图像特征对应的数据流进行空域变换，输出变换结果；将所述多尺度图像特征和所述变换结果输入至少一个重建层，输出所述多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频。5.根据权利要求4所述的视频生成方法，其特征在于，所述方法还包括：基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到权重矩阵，其中，所述权重矩阵用于在深度神经网络的训练过程中进行时域一致性约束损失计算。6.根据权利要求5所述的视频生成方法，其特征在于，所述方法还包括：将待训练视频中相邻的第一视频帧和第二视频帧输入至预先训练完毕的光流估计模型，输出所述第二视频帧至所述第一视频帧的光流，其中，所述待训练视频与所述目标视频相同，所述第一视频帧为当前时刻的视频帧，所述第二视频帧为上一个时刻的视频帧；采用所述光流对当前时刻的目标视频帧进行空域变换，得...

【专利技术属性】
技术研发人员：杨凌波，高占宁，任沛然，谢宣松，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人