视频融合方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:24517730 阅读:39 留言:0更新日期:2020-06-17 06:50
本申请公开了一种视频融合方法、装置、电子设备及可读存储介质,涉及计算机视觉技术。具体实现方案为根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得用户视频的各视频帧图像中人脸图像的预测三维人脸网格;根据用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得预测三维人脸网格的预测纹理;根据预测三维人脸网格、预测纹理和用户人脸姿态,以及模板人脸姿态,获得预测三维人脸网格的渲染人脸图像;对渲染人脸图像和模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像,并对其进行合成处理获得融合视频。

Video fusion methods, devices, electronic devices and readable storage media

【技术实现步骤摘要】
视频融合方法、装置、电子设备及可读存储介质
涉及计算机技术,具体涉及计算机视觉技术,尤其涉及一种视频融合方法、装置、电子设备及可读存储介质。
技术介绍
随着互联网的深入发展,终端能够集成越来越多的功能,从而使得应用于终端上的应用(Application,APP)层出不穷。有些应用中会涉及视频换脸,即输入一个模板视频和一个用户视频,然后输出一个融合视频,该融合视频中,模板视频中的人脸被用户视频中的人脸所替换,其余保持不变。现有的视频换脸方法中,可以检测用户视频与模板视频的各视频帧图像的关键点,通过关键点来对齐用户视频的各视频帧图像与模板视频的各视频帧图像的人脸五官位置,再调整用户视频的各视频帧图像中人脸的纹理平衡,达到与模板视频的各视频帧图像中人脸近似之后,将用户视频的各视频帧图像与模板视频的各视频帧图像进行融合处理,以获得融合视频。然而,完全基于根据关键点所进行的用户视频的各视频帧图像与模板视频的各视频帧图像的人脸五官位置的对齐进行视频融合,在一些情况下,例如在模板视频中人脸的姿态与用户视频中人脸的姿态相差较大时,视频融合的融合效果较差。
技术实现思路
本申请的多个方面提供一种视频融合方法、装置、电子设备及可读存储介质,用以提升视频融合的融合效果。本申请的一方面,提供一种视频融合方法,包括:根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格;根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理;根据所述各预测三维人脸网格、所述各预测三维人脸网格的预测纹理和所述用户视频的各视频帧图像中人脸图像的用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述各预测三维人脸网格的渲染人脸图像;对所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像;对所述各融合视频帧图像进行合成处理,以获得融合视频。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理,包括:根据各模板三维人脸网格的模板纹理,对各用户三维人脸网格的用户纹理进行平衡处理,以获得所述各预测三维人脸网格的预测纹理;或者对各用户三维人脸网格的用户纹理和各模板三维人脸网格的模板纹理进行融合处理,以获得所述各预测三维人脸网格的预测纹理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理之后,还包括:对所述各预测三维人脸网格的预测纹理进行平滑处理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述各预测三维人脸网格、所述各预测三维人脸网格的预测纹理和所述用户视频的各视频帧图像中人脸图像的用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述各预测三维人脸网格的渲染人脸图像,包括:根据所述用户人脸姿态和所述模板人脸姿态,获得姿态调整参数;根据所述姿态调整参数,对所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格的融合人脸姿态进行姿态调整处理,以将所述融合人脸姿态从所述用户人脸姿态调整到所述模板人脸姿态;对姿态调整处理之后的所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格进行投影处理;利用所述各预测三维人脸网格的预测纹理,对所述投影处理的投影结果进行渲染处理,以获得所述各预测三维人脸网格的渲染人脸图像。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像,包括:根据预先设置的人脸图像蒙版、所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格和用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像;对所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像、所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据预先设置的人脸图像蒙版、所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格和用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像,包括:根据所述用户人脸姿态和所述模板人脸姿态,获得姿态调整参数;根据所述姿态调整参数,对所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格的融合人脸姿态进行姿态调整处理,以将所述融合人脸姿态从所述用户人脸姿态调整到所述模板人脸姿态;根据所述姿态调整参数,对预先设置的人脸图像蒙版的蒙版人脸姿态进行姿态调整处理,以将所述蒙版人脸姿态调整到所述模板人脸姿态;对姿态调整处理之后的所述人脸图像蒙版和所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格进行投影处理,以获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格,包括:分别根据所述用户视频的各视频帧图像和所述模板视频的各视频帧图像,对应获得所述用户视频的各视频帧图像中人脸图像的关键点和所述模板视频的各视频帧图像中人脸图像的关键点;分别对所述用户视频的各视频帧图像中人脸图像的关键点和所述模板视频的各视频帧图像中人脸图像的关键点进行人脸拟合处理,以获得所述用户视频的各视频帧图像中人脸图像的人脸预测参数和所述模板视频的各视频帧图像中人脸图像的人脸预测参数;其中,所述人脸预测参数包括人脸形状参数的权重、人脸表情参数的权重和人脸旋转参数;根据所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和人脸表情参数的权重,以及所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的本文档来自技高网...

【技术保护点】
1.一种视频融合方法,其特征在于,包括:/n根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格;/n根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理;/n根据所述各预测三维人脸网格、所述各预测三维人脸网格的预测纹理和所述用户视频的各视频帧图像中人脸图像的用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述各预测三维人脸网格的渲染人脸图像;/n对所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像;/n对所述各融合视频帧图像进行合成处理,以获得融合视频。/n

【技术特征摘要】
1.一种视频融合方法,其特征在于,包括:
根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格;
根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理;
根据所述各预测三维人脸网格、所述各预测三维人脸网格的预测纹理和所述用户视频的各视频帧图像中人脸图像的用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述各预测三维人脸网格的渲染人脸图像;
对所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像;
对所述各融合视频帧图像进行合成处理,以获得融合视频。


2.根据权利要求1所述的方法,其特征在于,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理,包括:
根据各模板三维人脸网格的模板纹理,对各用户三维人脸网格的用户纹理进行平衡处理,以获得所述各预测三维人脸网格的预测纹理;或者
对各用户三维人脸网格的用户纹理和各模板三维人脸网格的模板纹理进行融合处理,以获得所述各预测三维人脸网格的预测纹理。


3.根据权利要求1所述的方法,其特征在于,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理之后,还包括:
对所述各预测三维人脸网格的预测纹理进行平滑处理。


4.根据权利要求1所述的方法,其特征在于,所述根据所述各预测三维人脸网格、所述各预测三维人脸网格的预测纹理和所述用户视频的各视频帧图像中人脸图像的用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述各预测三维人脸网格的渲染人脸图像,包括:
根据所述用户人脸姿态和所述模板人脸姿态,获得姿态调整参数;
根据所述姿态调整参数,对所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格的融合人脸姿态进行姿态调整处理,以将所述融合人脸姿态从所述用户人脸姿态调整到所述模板人脸姿态;
对姿态调整处理之后的所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格进行投影处理;
利用所述各预测三维人脸网格的预测纹理,对所述投影处理的投影结果进行渲染处理,以获得所述各预测三维人脸网格的渲染人脸图像。


5.根据权利要求1所述的方法,其特征在于,所述对所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像,包括:
根据预先设置的人脸图像蒙版、所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格和用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像;
对所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像、所述各预测三维人脸网格的渲染人脸图像和所述模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像。


6.根据权利要求5所述的方法,其特征在于,所述根据预先设置的人脸图像蒙版、所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格和用户人脸姿态,以及所述模板视频的各视频帧图像中人脸图像的模板人脸姿态,获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像,包括:
根据所述用户人脸姿态和所述模板人脸姿态,获得姿态调整参数;
根据所述姿态调整参数,对所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格的融合人脸姿态进行姿态调整处理,以将所述融合人脸姿态从所述用户人脸姿态调整到所述模板人脸姿态;
根据所述姿态调整参数,对预先设置的人脸图像蒙版的蒙版人脸姿态进行姿态调整处理,以将所述蒙版人脸姿态调整到所述模板人脸姿态;
对姿态调整处理之后的所述人脸图像蒙版和所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格进行投影处理,以获得所述用户视频的各视频帧图像中人脸图像的渲染蒙版图像。


7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格,包括:
分别根据所述用户视频的各视频帧图像和所述模板视频的各视频帧图像,对应获得所述用户视频的各视频帧图像中人脸图像的关键点和所述模板视频的各视频帧图像中人脸图像的关键点;
分别对所述用户视频的各视频帧图像中人脸图像的关键点和所述模板视频的各视频帧图像中人脸图像的关键点进行人脸拟合处理,以获得所述用户视频的各视频帧图像中人脸图像的人脸预测参数和所述模板视频的各视频帧图像中人脸图像的人脸预测参数;其中,所述人脸预测参数包括人脸形状参数的权重、人脸表情参数的权重和人脸旋转参数;
根据所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和人脸表情参数的权重,以及所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格。


8.根据权利要求7所述的方法,其特征在于,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理之前,还包括:
利用预先设置的无表情的基础人脸形状、以及所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,生成所述用户视频的各视频帧图像中人脸图像的用户无表情三维人脸网格;
利用所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,以及所述用户视频的各视频帧图像中人脸图像的人脸表情参数的权重和预先设置的各人脸表情参数,生成所述用户视频的各视频帧图像中人脸图像的用户有表情三维人脸网格;
对所述用户无表情三维人脸网格和所述用户有表情三维人脸网格进行融合处理,以获得所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格;
利用所述用户三维人脸网格对所述用户视频的各视频帧图像中人脸图像进行采样处理,以获得各用户三维人脸网格的用户纹理。


9.根据权利要求8所述的方法,其特征在于,所述根据所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和人脸表情参数的权重,以及所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重,获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格,包括:
利用预先设置的无表情的基础人脸形状、以及所述用户视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,生成所述用户视频的各视频帧图像中人脸图像的用户无表情三维人脸网格;
利用预先设置的无表情的基础人脸形状、以及所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,生成所述模板视频的各视频帧图像中人脸图像的模板无表情三维人脸网格;
对所述用户无表情三维人脸网格和所述模板无表情三维人脸网格进行融合处理,以获得融合无表情三维人脸网格;
根据所述融合无表情三维人脸网格,以及所述用户视频的各视频帧图像中人脸图像的人脸表情参数的权重和预先设置的各人脸表情参数,获得融合有表情三维人脸网格;
对所述融合有表情三维人脸网格和所述用户三维人脸网格进行融合处理,以获得所述用户视频的各视频帧图像中人脸图像的预测三维人脸网格。


10.根据权利要求7所述的方法,其特征在于,所述根据所述用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和所述模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得各预测三维人脸网格的预测纹理之前,还包括:
利用预先设置的无表情的基础人脸形状、以及所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,生成所述模板视频的各视频帧图像中人脸图像的模板无表情三维人脸网格;
利用所述模板视频的各视频帧图像中人脸图像的人脸形状参数的权重和预先设置的各人脸形状参数,以及所述模板视频的各视频帧图...

【专利技术属性】
技术研发人员:姚锟洪智滨郭汉奇曾旭升
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1