生成视频的方法、装置、设备和存储介质制造方法及图纸

技术编号:46628404 阅读:0 留言:0更新日期:2025-10-14 21:26
本公开的实施例涉及生成视频的方法、装置、设备和计算机可读存储介质。在此提出的方法包括:获取参考图像和至少一个控制信号;以及利用模型基于参考图像和至少一个控制信号,生成目标视频,其中,模型包括第一注意力层,第一注意力层被配置为:基于注意力机制,更新输入视频特征和输入控制特征,以确定中间视频特征和中间控制特征;获取中间视频特征的第一组子特征和/或中间控制特征的第二组子特征;以及基于第一组子特征和/或第二组子特征,确定注意层的输出视频特征和输出控制特征。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域,特别地涉及生成视频的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着计算机技术的发展,一些机器学习技术支持用户通过控制信号来驱动图像,从而生成动态的视频内容。例如,用户可以通过输入音频信号来驱动数字人表现与音频信号对应的动作。


技术实现思路

1、在本公开的第一方面,提供了一种生成视频的方法。该方法包括:获取参考图像和至少一个控制信号;以及利用模型基于参考图像和至少一个控制信号,生成目标视频,其中,模型包括第一注意力层,第一注意力层被配置为:基于注意力机制,更新输入视频特征和输入控制特征,以确定中间视频特征和中间控制特征;获取中间视频特征的第一组子特征和/或中间控制特征的第二组子特征;以及基于第一组子特征和/或第二组子特征,确定注意层的输出视频特征和输出控制特征。

2、在本公开的第二方面,提供了一种用于生成视频的装置。该装置包括:获取模块,被配置为获取参考图像和至少一个控制信号;以及生成模块,被配置为利用模型基于参考图像和至少一个控制信号,生成目标视频本文档来自技高网...

【技术保护点】

1.一种生成视频的方法,包括:

2.根据权利要求1所述的方法,其中所述模型还包括与所述第一注意力层连接的第二注意力层,并且所述第一注意力层的所述输出视频特征和所述输出控制特征被提供作为所述第二注意力层的输入视频特征和输入控制特征。

3.根据权利要求1所述的方法,其中所述第一组子特征对应于多个预设的图像区域,并且获取所述中间视频特征的第一组子特征包括:

4.根据权利要求3所述的方法,其中所述模型的训练损失包括所述第一组特征转换单元所生成的第一组训练子特征和与所述多个预设的图像区域对应的第一组参考特征之间的差异。

5.根据权利要求4所述的方法,...

【技术特征摘要】

1.一种生成视频的方法,包括:

2.根据权利要求1所述的方法,其中所述模型还包括与所述第一注意力层连接的第二注意力层,并且所述第一注意力层的所述输出视频特征和所述输出控制特征被提供作为所述第二注意力层的输入视频特征和输入控制特征。

3.根据权利要求1所述的方法,其中所述第一组子特征对应于多个预设的图像区域,并且获取所述中间视频特征的第一组子特征包括:

4.根据权利要求3所述的方法,其中所述模型的训练损失包括所述第一组特征转换单元所生成的第一组训练子特征和与所述多个预设的图像区域对应的第一组参考特征之间的差异。

5.根据权利要求4所述的方法,其中所述第一组参考特征是基于与所述多个预设的图像区域对应的关键点信息或掩码信息所确定。

6.根据权利要求1所述的方法,其中所...

【专利技术属性】
技术研发人员:郑泽荣蒋建文杨嘉琪林高杰梁超郑彦波曾伟宏
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1