视频生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21687797 阅读:20 留言:0更新日期:2019-07-24 15:07
本发明专利技术公开了一种视频生成方法、装置、计算机设备及存储介质,属于网络技术领域。通过基于每帧第一图像的上下文图像,来提取该每帧第一图像的对象姿态信息,由于上下文图像中包括多帧连续图像,使得多帧第一图像的对象姿态的具备连贯性,避免单帧图像的对象姿态发生突变,保证最终生成的第二视频中,第二对象的动作是连续的,保证了所生成的视频在视觉效果上的真实性。

Video Generation Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
视频生成方法、装置、计算机设备及存储介质
本专利技术涉及网络
,特别涉及一种视频生成方法、装置、计算机设备及存储介质。
技术介绍
随着网络技术的发展,终端为用户制作视频时,可以基于一个被模仿对象的对象动作,为用户生成模仿该对象动作的用户视频。例如,基于A用户视频中A用户的姿态,生成模仿A用户的姿态的B用户视频,无需B用户执行任何动作,而将A用户的动作迁移到B用户上。相关技术中,视频生成过程可以包括:将A用户视频输入姿态估计模型,A用户视频中包括多帧A用户图像,该姿态估计模型提取每一帧A用户图像的图像特征,根据每帧A用户图像的图像特征,提取每帧A用户图像中A用户的姿态。然后,将多帧A用户图像中A用户的姿态输入到B用户的视频生成器中,生成器基于每帧A用户图像中A用户的姿态,对应生成一帧B用户图像,得到多帧B用户图像,输出B用户视频。上述方法实际上是基于单帧图像提取的A用户姿态生成视频,然而,提取的A用户姿态在连续的帧与帧之间可能发生突变,使得最终生成的视频中,B用户姿态也是突变的,例如,展示B用户的某动作过程不连贯,导致生成的视频在视觉效果上的真实性较差。
技术实现思路
本专利技术实施例提供了一种视频生成方法、装置、计算机设备及存储介质,能够解决相关技术中生成的视频在视觉效果上的真实性较差的问题。所述技术方案如下:一方面,提供了一种视频生成方法,所述方法包括:获取第一视频,所述第一视频中包括第一对象;将所述第一视频输入第一模型,基于输入的所述第一视频中至少一帧第一图像的上下文图像,输出所述至少一帧第一图像的对象姿态信息,其中,上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧;将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型,基于输入的所述至少一帧第一图像的对象姿态信息,输出第二视频,所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。在一种可能实现方式中,所述方法还包括:所述第一模型包括目标网络,所述目标网络位于该第一模型的任一特征层中,或者作为独立的目标特征层位于所述第一模型的任一排序位置上,所述目标网络用于实现所述对于所述每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征的步骤。另一方面,提供了一种视频生成装置,所述装置包括:获取模块,用于获取第一视频,所述第一视频中包括第一对象;输出模块,用于将所述第一视频输入第一模型,基于输入的所述第一视频中至少一帧第一图像的上下文图像,输出所述至少一帧第一图像的对象姿态信息,其中,上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧;所述输出模块,还用于将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型,基于输入的所述至少一帧第一图像的对象姿态信息,输出第二视频,所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。在一种可能实现方式中,所述输出模块,还用于将所述第一视频输入所述第一模型,对于每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征,所述聚合特征用于指示所述第一对象的姿态变化;根据所述聚合特征,确定所述第一图像中所述第一对象的关键点位置,得到所述第一图像的对象姿态信息。在一种可能实现方式中,所述输出模块,还用于对于每帧第一图像,根据所述第一图像和所述上下文图像的图像特征,确定所述上下文图像和所述第一图像中每两帧图像之间的相似度;根据所述第一图像以及所确定的相似度,确定所述聚合特征。在一种可能实现方式中,所述输出模块,还用于对于所述上下文图像和所述第一图像中每帧图像,根据所述每帧图像包括的多个像素点的像素特征,分别确定每两帧图像中像素点之间的相似度。在一种可能实现方式中,所述输出模块,还用于对于所述上下文图像和所述第一图像中每帧图像,根据所述图像与所述图像以外的图像之间的相似度,确定所述图像以外的图像相对于所述图像的权重;根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重,确定所述图像的聚合特征。在一种可能实现方式中,所述输出模块,还用于根据所述图像与所述图像以外的图像之间的相似度,确定所述图像的权重;确定所述图像以外的图像的特征向量与所述图像以外的图像的权重的第一乘积,以及所述图像的特征向量与所述图像的权重的第二乘积;将所述第一乘积和所述第二乘积之和,确定为所述图像的聚合特征。在一种可能实现方式中,所述输出模块,还用于对于所述每帧第一图像,根据所述第一图像和所述上下文图像的图像特征,确定所述上下文图像和所述第一图像中每帧图像的关键点位置;根据所述上下文图像和所述第一图像中每帧图像的关键点位置,获取所述上下文图像和所述第一图像的关键点位置的聚合特征。在一种可能实现方式中,所述第一模型包括目标网络,所述目标网络位于该第一模型的任一特征层中,或者作为独立的目标特征层位于所述第一模型的任一排序位置上,所述目标网络用于实现所述对于所述每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征的步骤。在一种可能实现方式中,所述输出模块,还用于将所述第一视频中至少一帧第一图像的对象姿态信息输入所述第二模型;对于每帧第一图像,基于所述第一图像和所述第一图像的上下文图像的对象姿态信息,确定所述第一图像对应的第二图像,所述第二图像包括与所述第一图像中第一对象具备相同姿态的第二对象;基于所述至少一帧第一图像对应的至少一帧第二图像,输出所述第二视频。在一种可能实现方式中,所述输出模块,还用于下述任一项:对于每帧第一图像,根据所述第一图像和所述第一图像的上下文图像的对象姿态信息,确定所述第一图像和所述上下文图像的对象姿态信息的聚合特征,根据所述第一图像和所述上下文图像的对象姿态信息的聚合特征,确定所述第一图像对应的第二图像;和对于每帧第一图像,根据所述第一图像和所述第一图像的上下文图像的对象姿态信息,生成第一图像和所述上下文图像对应的多帧第三图像,根据所述多帧第三图像的聚合特征,确定所述第一图像对应的第二图像,所述多帧第三图像包括与所述第一图像和所述上下文图像中第一对象具备相同姿态的第二对象。在一种可能实现方式中,所述装置还包括训练模块,所述训练模块,用于将第一样本视频中至少一帧第一样本图像的对象姿态信息、第二样本视频中至少一帧第二样本图像的对象姿态信息输入第二初始模型,分别基于所述至少一帧第一样本图像的对象姿态信息和所述至少一帧第二样本图像的对象姿态信息,获取所述第二初始模型中生成器生成的第三视频和第四视频;将所述第三视频、所述第四视频、所述第一样本视频和所述第二样本视频输入所述第二初始模型的判别器中,基于所述判别器分别对所述第三视频、第四视频、所述第一样本视频和所述第二样本视频的判别结果,对所述第二初始模型进行训练,得到所述第二模型;所述第一样本视频包括第一样本对象,所述第二样本视频包括第二对象,所述第三视频包括与所述第一样本对象具有相同姿态变化的第二对象,所述第四视频包括与所述第二样本视频的第二对象具有相同姿态变化的第二对象。在一种可能实现方式中,所述训练模块,还用于将所述第三视频和所述第一样本视频输入第一判别器,获取所述第一判别器的第一判别结果和第二判别结果之间的第一相似度;将所述第四视频和所述第二样本视频输入第二判别器,获取所述第二判别器的第三判本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,所述方法包括:获取第一视频,所述第一视频中包括第一对象;将所述第一视频输入第一模型,基于输入的所述第一视频中至少一帧第一图像的上下文图像,输出所述至少一帧第一图像的对象姿态信息,其中,上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧;将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型,基于输入的所述至少一帧第一图像的对象姿态信息,输出第二视频,所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:获取第一视频,所述第一视频中包括第一对象;将所述第一视频输入第一模型,基于输入的所述第一视频中至少一帧第一图像的上下文图像,输出所述至少一帧第一图像的对象姿态信息,其中,上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧;将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型,基于输入的所述至少一帧第一图像的对象姿态信息,输出第二视频,所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。2.根据权利要求1所述的方法,其特征在于,所述将所述第一视频输入第一模型,基于输入的所述第一视频中至少一帧第一图像的上下文图像,输出所述至少一帧第一图像的对象姿态信息包括:将所述第一视频输入所述第一模型,对于每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征,所述聚合特征用于指示所述第一对象的姿态变化;根据所述聚合特征,确定所述第一图像中所述第一对象的关键点位置,得到所述第一图像的对象姿态信息。3.根据权利要求2所述的方法,其特征在于,所述对于每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征包括:对于每帧第一图像,根据所述第一图像和所述上下文图像的图像特征,确定所述上下文图像和所述第一图像中每两帧图像之间的相似度;根据所述第一图像以及所确定的相似度,确定所述聚合特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一图像和所述上下文图像的图像特征,确定所述上下文图像和所述第一图像中每两帧图像之间的相似度包括:对于所述上下文图像和所述第一图像中每帧图像,根据所述每帧图像包括的多个像素点的像素特征,分别确定每两帧图像中像素点之间的相似度。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一图像以及所确定的相似度,确定所述聚合特征包括:对于所述上下文图像和所述第一图像中每帧图像,根据所述图像与所述图像以外的图像之间的相似度,确定所述图像以外的图像相对于所述图像的权重;根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重,确定所述图像的聚合特征。6.根据权利要求5所述的方法,其特征在于,所述根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重,确定所述图像的聚合特征包括:根据所述图像与所述图像以外的图像之间的相似度,确定所述图像的权重;确定所述图像以外的图像的特征向量与所述图像以外的图像的权重的第一乘积,以及所述图像的特征向量与所述图像的权重的第二乘积;将所述第一乘积和所述第二乘积之和,确定为所述图像的聚合特征。7.根据权利要求2所述的方法,其特征在于,所述对于每帧第一图像,获取所述第一图像的上下文图像和所述第一图像的聚合特征包括:对于所述每帧第一图像,根据所述第一图像和所述上下文图像的图像特征,确定所述上下文图像和所述第一图像中每帧图像的关键点位置;根据所述上下文图像和所述第一图像中每帧图像的关键点位置,获取所述上下文图像和所述第一图像的关键点位置的聚合特征。8.根据权利要求1所述的方法,其特征在于,所述将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型,基于输入的所述至少一帧第一图像的对象姿态信息,输出第二视频包括:将所述第一视频中至少一帧第一图像的对象姿态信息输入所述第二模型;对于每帧第一图像,基于所述第一图像和所述第一图像的上下文图像的对象姿态信息,确定所述第一图像对应的第二图像,所述第二图像包括与所述第一图像中第一对象具备相同姿态的第二对象;基于所述至少一帧第一图像对应的至少一帧第二图像,输出所述第二视频。9.根据权利要求8所述的方法,其特征在于,所述对于每帧第一图像,基于所述第一图像和所述第一图像的上下文图像的对象姿态信息,确定所述第一图像对应的第二图像包括下述任一项:对于每帧第一图像,根据所述第一图像和所述第一图像的上下文图像的对象姿态信息,确定所述第一图像和所述上下文图像的对象姿态信息的聚合特征,根据所述第一图像和所述上下文图像的对象姿态信息的聚合特征,确定所述第一图像对应的第二图像;和对于每帧第一图像,根据所述第一图像和所述第一图像的上...

【专利技术属性】
技术研发人员:龙如蛟邱日明李峰左小祥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1