视频生成及其模型训练方法、电子设备技术

技术编号：40542273 阅读：7 留言：0更新日期：2024-03-05 18:58

本申请实施例提供了一种视频生成及其模型训练方法、电子设备，其中，视频生成方法包括：获取待生成视频中的目标对象的对象图像、及目标对象在待生成视频中的动作文本；以对象图像和动作文本为机器学习模型的引导条件，基通过机器学习模型生成视频，其中，生成的视频为目标对象执行动作文本所指示的动作的视频；其中，机器学习模型的节点中至少包括空间特征层和时序特征层；并且，空间特征层中设置有基于对象图像的图像特征和动作文本的文本特征，生成目标对象的外观的第一适配器；时序特征层中设置有基于图像特征，生成目标动作的第二适配器。通过本申请实施例，使用该扩散模型能够生成符合目标对象和目标动作的个性化视频。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，尤其涉及一种视频生成及其模型训练方法、及一种电子设备。

技术介绍

1、随着技术的发展，目前的视频生成可使用机器学习模型实现，扩散模型便是其中的一种。扩散模型是图像生成模型的一种，其学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像。随着扩散模型的技术进步，目前的技术人员不仅能够使用扩散模型生成图像，还能够使用扩散模型生成视频。

2、但由于视频同时具有多样化的空间内容和复杂的时间动态，目前，使用扩散模型仅能够在视频生成的单个方面进行实践，即，仅在表现空间内容的空间物体方面使用扩散模型，或者，仅在表现时间动态的时间动作方面使用扩散模型。

3、然而，只关注空间物体方面会降低扩散模型在时间动作方面的泛化能力，反之，只关注时间动作方面会降低扩散模型在空间物体方面的泛化能力。其它用于生成视频的机器学习模型也有类似问题。由此，导致现有的机器学习模型无法很好地满足视频生成的要求。

技术实现思路

1、有鉴于此，本申请实施例提供一种视频生成及其模型训练方案，以至少部分解决上述问题。

2、根据本申请实施例的第一方面，提供了一种视频生成方法，包括：获取待生成视频中的目标对象的对象图像、及所述目标对象在所述待生成视频中的动作文本；以所述对象图像和所述动作文本为机器学习模型的引导条件，通过所述机器学习模型生成视频，其中，生成的视频为所述目标对象执行所述动作文本所指示的动作的视频；其中，所述机器学习模型的节点中至少包括空间特征层和时序特征层；

3、根据本申请实施例的第二方面，提供了另一种视频生成方法，包括：根据人机交互问答信息确定待生成的场景视频，及所述场景视频中的目标对象的对象图像和所述目标对象在所述场景视频中的动作文本；以所述对象图像和所述动作文本为机器学习模型的引导条件，通过所述机器学习模型生成场景视频，其中，生成的场景视频为所述目标对象执行所述动作文本所指示的动作的视频；其中，所述机器学习模型的节点中至少包括空间特征层和时序特征层；并且，所述空间特征层中设置有基于所述对象图像的图像特征和所述动作文本的文本特征，生成所述目标对象的外观的第一适配器；所述时序特征层中设置有基于所述图像特征，生成目标动作的第二适配器。

4、根据本申请实施例的第三方面，提供了再一种视频生成方法，包括：接收服务调用请求，所述服务调用请求中携带有待生成视频中的目标对象的对象图像、及所述目标对象在所述待生成视频中的动作文本；根据所述服务调用请求，调用用于视频生成的机器学习模型，以所述对象图像和所述动作文本为引导条件，生成所述目标对象执行所述动作文本所指示的动作的视频，并将所述视频返回给所述服务调用请求的请求方进行播放；其中，所述机器学习模型的节点中至少包括空间特征层和时序特征层；并且，所述空间特征层中设置有基于所述对象图像的图像特征和所述动作文本的文本特征，生成所述目标对象的外观的第一适配器；所述时序特征层中设置有基于所述图像特征，生成目标动作的第二适配器。

5、根据本申请实施例的第四方面，提供了一种模型训练方法，包括：获取预训练完成的基础机器学习模型、第一训练样本和第二训练样本，其中，所述第一训练样本为具有文本描述的图像样本，所述第二训练样本为视频样本；以所述基础机器学习模型为基础，为所述基础机器学习模型的节点中的空间特征层配置第一适配器，生成外观模型；并且，以所述基础机器学习模型为基础，为所述基础机器学习模型的节点中的时序特征层配置第二适配器，生成动作模型；使用所述第一训练样本对所述外观模型进行训练，以获得用于生成目标对象的外观的外观模型；并且，使用所述第二训练样本对所述动作模型进行训练，以获得用于生成目标动作的动作模型；将训练完成的动作模型中的第二适配器迁移至训练完成的所述外观模型中的时序特征层，或者，将训练完成的外观模型中的第一适配器迁移至训练完成的所述动作模型中的空间特征层，或者，将训练完成的动作模型中的第二适配器和训练完成的外观模型中的第一适配器分别迁移至所述基础机器学习模型的时序特征层和空间特征层，以获得用于生成视频的视频生成模型。

6、根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

7、根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面或第四方面所述的方法。

8、根据本申请实施例提供的方案，在使用机器学习模型生成视频时，为机器学习模型如扩散模型的节点中的空间特征层配置了第一适配器，为时序特征层配置了第二适配器。其中，第一适配器用于根据待生成视频中的目标对象的对象图像的图像特征和目标对象在待生成视频中的动作文本的文本特征，生成目标对象的外观；第二适配器用于根据对象图像的图像特征，生成目标动作。在此基础上，可以以对象图像和动作文本为机器学习如扩散模型的引导条件生成视频。因在机器学习模型的节点中同时设置了第一适配器和第二适配器，两者分别从空间物体方面和时间动作方面实现了目标对象在视频中的空间内容和时间动态的重建，因而使得机器学习模型如扩散模型在这两方面兼具泛化能力。也由此，使得使用该机器学习模型能够生成符合目标对象和目标动作的个性化视频，提高生成的视频的有效性。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，包括：

2.根据权利要求1所述的方法，其中，所述机器学习模型为用于视频生成的扩散模型，所述扩散模型包括多个节点，每个节点包括：空间和时序特征层、设置有所述第一适配器的空间特征层、和设置有所述第二适配器的时序特征层。

3.根据权利要求2所述的方法，其中，所述空间特征层包括第一基础特征层和所述第一适配器；所述时序特征层包括第二基础特征层和所述第二适配器。

4.根据权利要求3所述的方法，其中，

5.根据权利要求3所述的方法，其中，

6.根据权利要求2-5任一项所述的方法，其中，所述以所述对象图像和所述动作文本为机器学习模型的引导条件，通过所述机器学习模型生成视频，包括：

7.根据权利要求6所述的方法，其中，所述通过所述扩散模型的多个节点中的每个节点，对输入的特征图像分别进行空间和时序特征重建、外观特征重建和动作特征重建，包括：

8.根据权利要求7所述的方法，其中，所述基于重建后的空间和时序特征，以所述文本特征和所述图像特征为引导条件，通过所述空间特征层进行外观特征重建，包括：>

9.根据权利要求8所述的方法，其中，所述通过所述空间特征层中的第一基础特征层的外观特征重建，和与所述第一基础特征层对应的第一适配器的外观特征重建，生成所述空间特征层的外观特征重建结果，包括：

10.根据权利要求7所述的方法，其中，所述基于重建后的外观特征，以所述图像特征为引导条件，通过所述时序特征层进行动作特征重建，包括：

11.一种视频生成方法，包括：

12.一种视频生成方法，包括：

13.一种模型训练方法，包括：

14.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

...

【技术特征摘要】

1.一种视频生成方法，包括：

3.根据权利要求2所述的方法，其中，所述空间特征层包括第一基础特征层和所述第一适配器；所述时序特征层包括第二基础特征层和所述第二适配器。

4.根据权利要求3所述的方法，其中，

5.根据权利要求3所述的方法，其中，

6.根据权利要求2-5任一项所述的方法，其中，所述以所述对象图像和所述动作文本为机器学习模型的引导条件，通过所述机器学习模型生成视频，包括：

7.根据权利要求6所述的方法，其中，所述通过所述扩散模型的多个节点中的每个节点，对输入的特征图像分别进行空间和时序特征重建、外观特征重建和动作...

【专利技术属性】
技术研发人员：卫昱杰，张士伟，张迎亚，
申请(专利权)人：浙江阿里巴巴机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人