System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 角色视频生成方法、装置、电子设备及存储介质制造方法及图纸_技高网

角色视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41293028 阅读:2 留言:0更新日期:2024-05-13 14:43
本申请提供了一种角色视频生成方法、装置、电子设备及存储介质。该方法包括:利用编码器对角色参考图和角色描述文本进行特征提取;将文本语义特征和参考图语义特征进行拼接得到第一融合特征,将第一融合特征及参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征;利用姿势引导器对角色姿态图进行编码以生成姿态图特征,将姿态图特征输入到姿态网络中进行处理;对角色视频帧进行加噪处理,得到多帧噪声图,将多帧噪声图输入到扩散网络中,利用扩散网络对多帧噪声图进行序列去噪;利用解码器对扩散网络输出的特征进行多次迭代解码,并最终输出连续的角色视频帧。本申请能够生成质量更高、更稳健的角色视频。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种角色视频生成方法、装置、电子设备及存储介质


技术介绍

1、在数字内容创建领域,角色动画的生成是一项基本而重要的任务,旨在将源角色图像按照一定的姿势序列转化为逼真的视频。此技术在在线零售、娱乐视频、艺术创作和虚拟角色开发等多个领域中均有广泛应用。然而,尽管需求日益增长,现有技术在生成高质量角色视频方面仍面临诸多挑战。

2、当前,基于生成对抗网络(gan)的方法是实现角色动画的主流技术。尽管取得了一定进展,这些算法在生成图像或视频时仍然面临局部失真、细节模糊、语义不一致和时间不稳定等问题。这些问题的存在严重限制了基于gan的技术在实际应用中的效果和范围。另一种方法是采用扩散模型来生成角色视频。尽管相较于gan在某些方面有所改善,例如在人物细节的保留上更为精细,但它们在视频帧间的连贯性上仍存在问题,比如帧与帧之间可能出现抖动,这降低了生成视频的质量和观感。

3、鉴于上述现有技术的不足,迫切需要一种能够产生视觉细节丰富且时间连贯的角色视频的新方法。


技术实现思路

1、有鉴于此,本申请实施例提供了一种角色视频生成方法、装置、电子设备及存储介质,以解决现有技术存在的角色视频生成中面临局部失真、细节模糊、语义不一致和时间不稳定的问题。

2、本申请实施例的第一方面,提供了一种角色视频生成方法,包括:获取角色参考图和角色描述文本,利用预设的编码器对角色参考图和角色描述文本进行特征提取,得到文本语义特征、参考图语义特征和参考图特征信息;将文本语义特征和参考图语义特征进行拼接得到第一融合特征,将第一融合特征及参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征;输入一组与角色视频帧对应的角色姿态图,利用姿势引导器对角色姿态图进行编码以生成姿态图特征,将姿态图特征输入到姿态网络中进行处理,其中姿态网络包括下采样操作和上采样操作;对角色视频帧进行加噪处理,得到多帧噪声图,将多帧噪声图输入到扩散网络中,利用扩散网络对多帧噪声图进行序列去噪,其中扩散网络利用空间交叉注意力机制对第二融合特征进行融合,并利用时间交叉注意力机制对上采样操作处理后的特征进行融合;利用解码器对扩散网络输出的特征进行多次迭代解码,并最终输出连续的角色视频帧。

3、本申请实施例的第二方面,提供了一种角色视频生成装置,包括:特征提取模块,被配置为获取角色参考图和角色描述文本,利用预设的编码器对角色参考图和角色描述文本进行特征提取,得到文本语义特征、参考图语义特征和参考图特征信息;特征融合模块,被配置为将文本语义特征和参考图语义特征进行拼接得到第一融合特征,将第一融合特征及参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征;姿态处理模块,被配置为输入一组与角色视频帧对应的角色姿态图,利用姿势引导器对角色姿态图进行编码以生成姿态图特征,将姿态图特征输入到姿态网络中进行处理,其中姿态网络包括下采样操作和上采样操作;去噪处理模块,被配置为对角色视频帧进行加噪处理,得到多帧噪声图,将多帧噪声图输入到扩散网络中,利用扩散网络对多帧噪声图进行序列去噪,其中扩散网络利用空间交叉注意力机制对第二融合特征进行融合,并利用时间交叉注意力机制对上采样操作处理后的特征进行融合;迭代解码模块,被配置为利用解码器对扩散网络输出的特征进行多次迭代解码,并最终输出连续的角色视频帧。

4、本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。

5、本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

6、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

7、通过获取角色参考图和角色描述文本,利用预设的编码器对角色参考图和角色描述文本进行特征提取,得到文本语义特征、参考图语义特征和参考图特征信息;将文本语义特征和参考图语义特征进行拼接得到第一融合特征,将第一融合特征及参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征;输入一组与角色视频帧对应的角色姿态图,利用姿势引导器对角色姿态图进行编码以生成姿态图特征,将姿态图特征输入到姿态网络中进行处理,其中姿态网络包括下采样操作和上采样操作;对角色视频帧进行加噪处理,得到多帧噪声图,将多帧噪声图输入到扩散网络中,利用扩散网络对多帧噪声图进行序列去噪,其中扩散网络利用空间交叉注意力机制对第二融合特征进行融合,并利用时间交叉注意力机制对上采样操作处理后的特征进行融合;利用解码器对扩散网络输出的特征进行多次迭代解码,并最终输出连续的角色视频帧。本申请能够生成质量更高、更稳健的角色视频。

本文档来自技高网...

【技术保护点】

1.一种角色视频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用预设的编码器对所述角色参考图和角色描述文本进行特征提取,得到文本语义特征、参考图语义特征和参考图特征信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述第一融合特征及所述参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征,包括:

4.根据权利要求3所述的方法,其特征在于,在所述得到第二融合特征之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述利用姿势引导器对所述角色姿态图进行编码以生成姿态图特征,包括:

6.根据权利要求1所述的方法,其特征在于,在所述将所述姿态图特征输入到姿态网络中进行处理之后,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述利用解码器对所述扩散网络输出的特征进行多次迭代解码,并最终输出连续的角色视频帧,包括:

8.一种角色视频生成装置,其特征在于,包括:

9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种角色视频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用预设的编码器对所述角色参考图和角色描述文本进行特征提取,得到文本语义特征、参考图语义特征和参考图特征信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述第一融合特征及所述参考图特征信息输入到特征学习网络中进行融合,得到第二融合特征,包括:

4.根据权利要求3所述的方法,其特征在于,在所述得到第二融合特征之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述利用姿势引导器对所述角色姿态图进行编码以生成姿态图特征,包括:

6.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:石雅洁
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1