一种视频模型训练、视频生成方法和装置、电子设备制造方法及图纸

技术编号：42885846 阅读：31 留言：0更新日期：2024-09-30 15:07

本申请提供一种视频模型训练、视频生成方法和装置、电子设备，所述训练方法包括：获取训练样本集，所述训练样本集包括至少一组训练样本，为每一组所述训练样本构建对应帧数的训练骨骼点序列，并对视频生成模型进行训练；以及对所述视频生成模型进行测试。与现有技术相比，在本申请中，任一组所述训练样本包括若干拼接图像，所述拼接图像由训练动作视频中同一对象的若干个不同视角的单帧图像拼接而成；任一组所述训练样本的任意两个所述拼接图像中的单帧图像相同，拼接顺序不同；通过在模型的训练的过程中引入多视角的参考图像，能够更好的捕捉对象的不同视角的特征，使生成的视频更好的模拟对象的风格和特征，得到更精确的动作视频。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚拟内容生成领域，更具体地，涉及一种视频模型训练、视频生成方法和装置、电子设备。

技术介绍

1、在数字媒体和虚拟内容的生成领域，文本到图像(t2i，text to image)技术经历了巨大的进步，并逐渐扩展到文本到视频(t2v，text to video)的研究。扩散模型因其高质量的图像生成效果而成为了这一研究领域的新焦点。

2、近年来，扩散模型在动态视频生成，尤其是在对象视频制作方面展现出潜力。然而，在扩散模型基于基础图像为参考帧进行训练时，训练得到的模型通常不能够很好的捕捉目标对象的多个视角的特征，导致最终得到的对象缺乏“真实性”。

技术实现思路

1、本专利技术旨在克服上述现有技术的至少一种缺陷，提供一种视频模型训练、视频生成方法和装置、电子设备，用于提供一种更高效更精准的模拟和再现个体风格和特征的视频模型训练、视频生成方法和装置、电子设备。

2、根据本申请的第一方面，提供了一种视频生成模型训练方法，所述训练方法包括：

3、获取训练样...

【技术保护点】

1.一种视频生成模型训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的一种视频生成模型训练方法，其特征在于，所述训练样本中的各个所述拼接图像通过调整所述同一对象的若干个不同视角的单帧图像的拼接顺序分别获得。

3.根据权利要求2所述的一种视频生成模型训练方法，其特征在于，所述训练样本中的所述拼接图像的获取具体包括：

4.根据权利要求1所述的一种视频生成模型训练方法，其特征在于，所述视频生成模型至少包括图像特征网络和时序特征网络；

5.根据权利要求4所述的一种视频生成模型训练方法，其特征在于，在所述图像特征网

【技术特征摘要】

1.一种视频生成模型训练方法，其特征在于，所述训练方法包括：

3.根据权利要求2所述的一种视频生成模型训练方法，其特征在于，所述训练样本中的所述拼接图像的获取具体包括：

4.根据权利要求1所述的一种视频生成模型训练方法，其特征在于，所述视频生成模型至少包括图像特征网络和时序特征网络；

5.根据权利要求4所述的一种视频生成模型训练方法，其特征在于，在所述图像特征网络训练过程中：

6.一种视频生成模型训练装置，其特征在于，...

【专利技术属性】
技术研发人员：芦爱余，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人