System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种视频模型训练、视频生成方法和装置、电子设备制造方法及图纸_技高网

一种视频模型训练、视频生成方法和装置、电子设备制造方法及图纸

技术编号:42885846 阅读:25 留言:0更新日期:2024-09-30 15:07
本申请提供一种视频模型训练、视频生成方法和装置、电子设备,所述训练方法包括:获取训练样本集,所述训练样本集包括至少一组训练样本,为每一组所述训练样本构建对应帧数的训练骨骼点序列,并对视频生成模型进行训练;以及对所述视频生成模型进行测试。与现有技术相比,在本申请中,任一组所述训练样本包括若干拼接图像,所述拼接图像由训练动作视频中同一对象的若干个不同视角的单帧图像拼接而成;任一组所述训练样本的任意两个所述拼接图像中的单帧图像相同,拼接顺序不同;通过在模型的训练的过程中引入多视角的参考图像,能够更好的捕捉对象的不同视角的特征,使生成的视频更好的模拟对象的风格和特征,得到更精确的动作视频。

【技术实现步骤摘要】

本专利技术涉及虚拟内容生成领域,更具体地,涉及一种视频模型训练、视频生成方法和装置、电子设备


技术介绍

1、在数字媒体和虚拟内容的生成领域,文本到图像(t2i,text to image)技术经历了巨大的进步,并逐渐扩展到文本到视频(t2v,text to video)的研究。扩散模型因其高质量的图像生成效果而成为了这一研究领域的新焦点。

2、近年来,扩散模型在动态视频生成,尤其是在对象视频制作方面展现出潜力。然而,在扩散模型基于基础图像为参考帧进行训练时,训练得到的模型通常不能够很好的捕捉目标对象的多个视角的特征,导致最终得到的对象缺乏“真实性”。


技术实现思路

1、本专利技术旨在克服上述现有技术的至少一种缺陷,提供一种视频模型训练、视频生成方法和装置、电子设备,用于提供一种更高效更精准的模拟和再现个体风格和特征的视频模型训练、视频生成方法和装置、电子设备。

2、根据本申请的第一方面,提供了一种视频生成模型训练方法,所述训练方法包括:

3、获取训练样本集,所述训练样本集包括至少一组训练样本,任一组所述训练样本包括若干拼接图像,所述拼接图像由训练动作视频中同一对象的若干个不同视角的单帧图像拼接而成;任一组的所述训练样本的任意两个所述拼接图像中的单帧图像相同,拼接顺序不同;为每一组所述训练样本构建对应帧数的训练骨骼点序列;

4、根据每组所述训练样本与对应的所述训练骨骼点序列对待训练的视频生成模型进行训练;

5、构建测试样本集并通过所述测试样本集对训练后的所述视频生成模型进行测试,获得训练好的所述视频生成模型。

6、在可选的实施方式中,所述训练样本中的各个所述拼接图像通过调整所述同一对象的若干个不同视角的单帧图像的拼接顺序分别获得。

7、在可选的实施方式中,所述训练样本中的所述拼接图像的获取具体包括:

8、将所述同一对象的若干个不同视角的单帧图像按照初始顺序排序并拼接;

9、根据所述初始顺序,依次将最后一位的所述单帧图像移动到第一位进行拼接,每次拼接后对应得到一个所述拼接图像,若拼接后为所述初始顺序,则停止移位;

10、或,

11、根据所述拼接顺序,依次将第一位的所述单帧图像移动到最后一位进行拼接,每次拼接后对应得到一个所述拼接图像,若拼接后为所述初始顺序,则停止移位。

12、在可选的实施方式中,所述视频生成模型至少包括图像特征网络和时序特征网络;

13、所述图像特征网络根据所述训练样本与对应的所述训练骨骼点序列进行训练,将所述训练样本与所述训练骨骼点序列通过空间注意机制进行整合;

14、所述时序特征网络根据所述时序训练用的视频片段和与所述视频片段对应的时序骨骼点序列进行时序特征训练。

15、在可选的实施方式中,在所述图像特征网络训练过程中:

16、所述拼接图像中的所述单帧图像的数量根据预设帧数确定;

17、根据所述预设帧数设置待训练的视频生成模型的批量大小;

18、将一组所述训练样本和对应的所述训练骨骼点序列作为所述视频生成模型的一个批量进行训练。

19、根据本申请的第二方面,提供了一种视频生成模型训练装置,所述训练装置包括:

20、训练样本获取模块,获取训练样本集,所述训练样本集包括至少一组训练样本,任一组所述训练样本包括若干拼接图像,所述拼接图像由训练动作视频中同一对象的若干个不同视角的单帧图像拼接而成;任一组的所述训练样本的任意两个所述拼接图像中的单帧图像相同,拼接顺序不同;根据所述拼接图像中所述单帧图像的数量为每一组所述训练样本构建对应帧数的训练骨骼点序列;

21、模型训练模块,用于根据每组所述训练样本与对应的所述训练骨骼点序列对待训练的视频生成模型进行训练;

22、模型测试模块,用于构建测试样本集并通过所述测试样本集对训练后的所述视频生成模型进行测试,获得训练好的所述视频生成模型。

23、根据本申请的第三方面,提供了一种视频生成方法,应用于上述第一方面或第二方面所述的视频生成模型,所述生成方法包括:

24、获取目标对象的若干不同视角的单帧图像,将所述目标对象的所有所述单帧图像进行拼接得到所述目标对象的拼接图像,并构建待生成的目标动作视频的目标骨骼点序列;

25、将所述目标对象的拼接图像和所述目标骨骼点序列输入训练好的所述视频生成模型,获得所述目标对象的所述目标动作视频。

26、根据本申请的第四方面,提供了一种视频生成装置,应用上述第一方面或第二方面所述的视频生成模型,所述生成装置包括:

27、目标获取模块,用于获取目标对象的若干不同视角的单帧图像,将所述目标对象的所有所述单帧图像进行拼接得到所述目标对象的拼接图像,并构建待生成的目标动作视频的目标骨骼点序列;

28、视频生成模块,用于将所述目标对象的拼接图像和所述目标骨骼点序列输入训练好的所述视频生成模型,获得所述目标对象的所述目标动作视频。根据本申请的第五方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令,实现第一方面所述的一种视频生成模型训练方法或第三方面所述的一种视频生成方法。

29、根据本申请的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现第一方面所述的一种视频生成模型训练方法或第三方面所述的一种视频生成方法。

30、基于上述任意一个方面,本申请实施例提供的视频生成模型训练方法、视频生成方法、相关系统及相关设备通过将同一对象的不同视角的单帧图像进行拼接,使同一对象的不同视角信息能够进行融合,通过在模型训练的过程中引入多视角的信息,能够更好的捕捉对象的不同视角的特征,进而能够使生成的视频能够更好的模拟对象的风格和特征,得到更精确的动作视频;

31、再者,本申请实施例提供的视频模型训练、视频生成方法和装置、电子设备通过将每组拼接图像中的单帧图像的数量来设置所述视频生成模型的批量大小,并通过移位的方式获取对应数量的所述拼接图像,将所述训练样本中所有的拼接图像和对应的所述训练骨骼点序列作为所述视频生成模型的一个批量进行训练,使所述视频生成模型能够有效的对合并后的图像的特征进行学习,以学习不同图像之间的差异性,并且在对于所述训练骨骼点序列学习的过程中,使合并后的图像特征能够共享和集成,为所述训练骨骼点序列的学习提供更丰富的参考信息,提升生成的动作视频的指令;通过设置使所述训练骨骼点序列中一个骨骼点图像对应多个对象的特征,有效利用所述模型生成模型的网络结构,提高所述视频生成模型的训练效率;

32、进一步的,本申请实施例提供的视频模型训练、视频生成方法和装置、电子设备通过空间注意机制将所述训练样本与所述训练骨骼点序列进行信息融合,使得所述视频生成模型不但能够检测到单帧图像间的高层特征,还能够本文档来自技高网...

【技术保护点】

1.一种视频生成模型训练方法,其特征在于,所述训练方法包括:

2.根据权利要求1所述的一种视频生成模型训练方法,其特征在于,所述训练样本中的各个所述拼接图像通过调整所述同一对象的若干个不同视角的单帧图像的拼接顺序分别获得。

3.根据权利要求2所述的一种视频生成模型训练方法,其特征在于,所述训练样本中的所述拼接图像的获取具体包括:

4.根据权利要求1所述的一种视频生成模型训练方法,其特征在于,所述视频生成模型至少包括图像特征网络和时序特征网络;

5.根据权利要求4所述的一种视频生成模型训练方法,其特征在于,在所述图像特征网络训练过程中:

6.一种视频生成模型训练装置,其特征在于,所述训练装置包括:

7.一种视频生成方法,其特征在于,应用权利要求1-6任一项所述的视频生成模型,所述生成方法包括:

8.一种视频生成装置,其特征在于,应用权利要求1-6任一项所述的视频生成模型,所述生成装置包括:

9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令,实现权利要求1-5任一项所述的一种视频生成模型训练方法或权利要求7所述的一种视频生成方法。

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现权利要求1-5任一项所述的一种视频生成模型训练方法或权利要求7所述的一种视频生成方法。

...

【技术特征摘要】

1.一种视频生成模型训练方法,其特征在于,所述训练方法包括:

2.根据权利要求1所述的一种视频生成模型训练方法,其特征在于,所述训练样本中的各个所述拼接图像通过调整所述同一对象的若干个不同视角的单帧图像的拼接顺序分别获得。

3.根据权利要求2所述的一种视频生成模型训练方法,其特征在于,所述训练样本中的所述拼接图像的获取具体包括:

4.根据权利要求1所述的一种视频生成模型训练方法,其特征在于,所述视频生成模型至少包括图像特征网络和时序特征网络;

5.根据权利要求4所述的一种视频生成模型训练方法,其特征在于,在所述图像特征网络训练过程中:

6.一种视频生成模型训练装置,其特征在于,...

【专利技术属性】
技术研发人员:芦爱余
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1