真人视频生成方法、装置、可读存储介质及设备制造方法及图纸

技术编号:27977180 阅读:23 留言:0更新日期:2021-04-06 14:11
本发明专利技术提供一种真人视频生成方法、装置、可读存储介质及设备,真人视频生成方法包括:获取用于生成目标角色的第一视频;从预设的参考帧池中寻找与第一视频的多帧图像分别对应的多帧第一参考图像;根据第一视频的多帧图像、与第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型;获取用于生成目标动作的第二视频;从参考帧池中寻找与第二视频的多帧图像分别对应的多帧第二参考图像;根据第二视频的多帧图像、与第二视频的多帧图像分别对应的多帧第二参考图像、图像生成模型,生成由目标角色作出目标动作的视频。本发明专利技术能够提高生成视频的真实度。

【技术实现步骤摘要】
真人视频生成方法、装置、可读存储介质及设备
本专利技术涉及视频生成
,尤其涉及一种真人视频生成方法、装置、可读存储介质及设备。
技术介绍
随着电子设备的普及,基于视频的信息传递和交流,在人们的生活和工作中的份量越来越重要,特别是线上教学逐渐兴起。目前的线上教学中,出现了非直播形式的AI课程,是通过AI技术生成的视频课程,并不是授课老师真实录制的视频课程。AI课程需要用到真人视频生成技术,目前的视频生成方法中多为基于单帧参考图像来生成,这类生成方法具有局限性。视频中的很多细节,例如衣服花纹、背景图像和肢体细节等,难以达到“真实”的级别。因此,需要一种能够提高真实度的视频生成技术。
技术实现思路
为了解决上述技术问题中的至少一个,本专利技术的一些方面提供了一种真人视频生成方法、装置、可读存储介质及设备,可以自动从不同参考图像中聚合生成需要用到的深度特征,提高生成视频的真实度。一方面,本专利技术提供一种真人视频生成方法,包括:获取用于生成目标角色的第一视频;从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型;获取用于生成目标动作的第二视频;从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像;根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。在本专利技术的至少一个实施例中,从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像,包括:根据所述第一视频的多帧图像的SMPL特征的相似度从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像,包括:根据所述第二视频的多帧图像的SMPL特征的相似度从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。在本专利技术的至少一个实施例中,根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型,包括:根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息,训练所述图像生成模型;根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频,包括:根据所述第二视频的多帧图像的openpose特征和densepose特征、所述第二参考图像、光流预设模型预测的从所述第二参考图像到所述第二视频的帧图像的第二光流信息、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。在本专利技术的至少一个实施例中,所述图像生成模型包括:由生成网络和鉴别网路组成的对抗神经网络。在本专利技术的至少一个实施例中,所述生成网络包括:外观编码网络,用于从多个第二参考图像中提取参考深度特征;扭曲处理模块,用于根据第二光流信息对所述参考深度特征进行扭曲处理;姿势编码网络,用于从第二视频的多帧图像中提取动作深度特征;特征聚合模块,用于将扭曲处理后的所述参考深度特征和所述动作深度特征进行聚合,得到聚合深度特征。在本专利技术的至少一个实施例中,所述特征聚合模块包括:第一卷积网络,用于对扭曲处理后的所述参考深度特征进行处理,得到用于聚合的参考深度特征;第二卷积网络,用于对所述动作深度特征进行处理,得到用于指导的动作深度特征;注意力机制模块,用于计算所有用于聚合的参考深度特征的权重;粗聚合模块,用于根据所述权重将用于指导的动作深度特征和用于聚合的参考深度特征进行聚合,得到聚合粗特征;第三卷积网络,用于对所述聚合粗特征与所述动作深度特征进行处理,得到所述聚合深度特征。在本专利技术的至少一个实施例中,所述生成网络还包括:余差网络,用于对所述动作深度特征进行解码处理;组合模块,用于将解码后的所述动作深度特征与所述聚合深度特征进行组合得到组合特征;解码网络,用于对所述组合特征进行解码。另一方面,本专利技术还提供一种真人视频生成装置,包括:第一视频获取模块,用于获取生成目标角色的第一视频;第一参考图像获取模块,用于从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;训练模块,用于根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型;第二视频获取模块,用于获取生成目标动作的第二视频;第二参考图像获取模块,用于从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像;视频生成模块,用于根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。又一方面,本专利技术还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如上任一项所述的真人视频生成方法中的步骤。又一方面,本专利技术还提供一种电子设备,设备包括处理器和存储器,存储器中存储有适于处理器执行的计算机程序指令,计算机程序指令被处理器运行时执行如上任一项所述的真人视频生成方法中的步骤。本专利技术的真人视频生成方法、装置、可读存储介质及设备,在训练模型时采用了多参考图像来生成,并且,在视频生成阶段采用了多图像深度特征聚合的方法,能自动的从各个参考图像中获取用于生成真人视频的深度特征,从而提高生成视频的真实度。附图说明附图示出了本专利技术的示例性实施方式,并与其说明一起用于解释本专利技术的原理,其中包括了这些附图以提供对本专利技术的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1为本专利技术真人视频生成方法的一种示例性流程示意图;图2为本专利技术真人视频生成方法的又一示例性流程示意图;图3为本专利技术真人视频生成方法一具体示例的流程示意图;图4为本专利技术中视频生成阶段的示例性流程示意图;图5为本专利技术中特征聚合过程的示例性流程示意图;图6为本专利技术真人视频生成装置的示例性结构示意图;图7为本专利技术电子设备的示例性结构示意图。具体实施方式下面结合附图和实施方式对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分。需要说明的是,在不冲突的情况下,本专利技术中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本专利技术。需要说明的是,文中本文档来自技高网...

【技术保护点】
1.一种真人视频生成方法,其特征在于,包括:/n获取用于生成目标角色的第一视频;/n从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;/n根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型;/n获取用于生成目标动作的第二视频;/n从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像;/n根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。/n

【技术特征摘要】
1.一种真人视频生成方法,其特征在于,包括:
获取用于生成目标角色的第一视频;
从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;
根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型;
获取用于生成目标动作的第二视频;
从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像;
根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。


2.根据权利要求1所述的真人视频生成方法,其特征在于,所述从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像,包括:
根据所述第一视频的多帧图像的SMPL特征的相似度从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像;
所述从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像,包括:
根据所述第二视频的多帧图像的SMPL特征的相似度从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。


3.根据权利要求2所述的真人视频生成方法,其特征在于,所述根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型,包括:
根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息,训练所述图像生成模型;
所述根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频,包括:
根据所述第二视频的多帧图像的openpose特征和densepose特征、所述第二参考图像、光流预设模型预测的从所述第二参考图像到所述第二视频的帧图像的第二光流信息、所述图像生成模型,生成由所述目标角色作出所述目标动作的视频。


4.根据权利要求3所述的真人视频生成方法,其特征在于,所述图像生成模型包括:
由生成网络和鉴别网路组成的对抗神经网络。


5.根据权利要求4所述的真人视频生成方法,其特征在于,所述生成网络包括:
外观编码网络,用于从多个所述第二参考图像中提取参考深度特征;
扭曲处理模...

【专利技术属性】
技术研发人员:王骁高原刘霄
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1