用于生成视频的方法、装置、设备和介质制造方法及图纸

技术编号：40370185 阅读：9 留言：0更新日期：2024-02-20 22:14

提供了用于生成视频的方法、装置、设备和介质。在一种方法中，接收分别用于描述目标视频中的多个目标图像的多个图像。接收用于描述目标视频的内容的文本。根据生成模型，基于多个图像和文本来生成目标视频。利用本公开的示例性实现方式，可以使用接收的多个图像作为引导数据，来确定视频中故事的发展方向，进而有助于生成更为丰富并且逼真的动态性视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例性实现方式总体涉及计算机视觉，特别地涉及利用机器学习模型来生成视频的方法、装置、设备和计算机可读存储介质。

技术介绍

1、机器学习技术已经被广泛地用于多个
，在计算机视觉领域中，已经提出了利用机器学习模型来自动生成视频的多种技术方案。例如，可以基于预先指定的图像和用于描述视频内容的文本来生成相应的视频。然而，目前所生成的视频中的画面通常动态性较差，例如视频中的对象缺乏明显动作和动态效果等，因而难以达到真实的运动视觉效果。此时，期望可以以更为方便并且有效的方式来生成包括期望内容的动态视频。

技术实现思路

1、在本公开的第一方面，提供了一种用于生成视频的方法。在该方法中，接收分别用于描述目标视频中的多个目标图像的多个图像。接收用于描述目标视频的内容的文本。根据生成模型，基于多个图像和文本来生成目标视频。

2、在本公开的第二方面，提供了一种用于生成视频的装置。该装置包括：图像接收模块，被配置用于接收用于描述目标视频的头部图像和尾部图像中的至少任一项的图像；文本接收模块，被配置用于接收用于描述目标视频的内容的文本；以及生成模块，被配置用于根据生成模型，基于图像和文本来生成目标视频。

3、在本公开的第三方面，提供了一种电子设备。该电子设备包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使电子设备执行根据本公开第一方面的方法。

4、在本

5、应当理解，本内容部分中所描述的内容并非旨在限定本公开的实现方式的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于生成视频的方法，包括：

2.根据权利要求1所述的方法，其中所述多个图像包括用于描述所述多个目标图像中的头部图像的第一图像和用于描述所述多个目标图像中的尾部图像的第二图像。

3.根据权利要求2所述的方法，其中所述第二图像是经由以下至少任一项来接收的：

4.根据权利要求2所述的方法，进一步包括：

5.根据权利要求1所述的方法，其中所述图像和所述文本是基于以下来确定的：

6.根据权利要求1所述的方法，其中所述图像和所述文本是基于以下来确定的：

7.根据权利要求1所述的方法，进一步包括：

8.根据权利要求2所述的方法，其中生成所述目标视频进一步包括：

9.根据权利要求8所述的方法，其中确定所述目标视频的所述重建特征包括：

10.根据权利要求1所述的方法，其中所述生成模型是基于以下来确定的：

11.根据权利要求10所述的方法，其中所述第一参考图像位于所述参考视频的头部，以及所述第二参考图像位于所述参考视频的尾部的预定范围内。

12.根据权利要求10

13.根据权利要求12所述的方法，其中所述第一参考图像特征在所述第二参考特征中的第一位置对应于所述第一参考图像在所述参考视频中的位置，并且所述第二参考图像特征在所述第二参考特征中的第二位置对应于所述第二参考图像在所述参考视频中的位置。

14.根据权利要求13所述的方法，其中所述第二参考特征的维度等于所述第一参考特征的维度，并且所述第二参考特征中的所述第一位置和所述第二位置以外的其他位置处的特征被设置为空。

15.根据权利要求14所述的方法，进一步包括：按照预定条件来将所述第二参考图像特征设置为空。

16.根据权利要求12所述的方法，其中基于所述第一参考特征、所述第二参考特征、以及所述参考文本来确定所述扩散模型包括：

17.根据权利要求2所述的方法，其中所述头部图像是所述目标视频中的第一个图像帧，并且所述尾部图像是所述目标视频中的最后一个图像帧。

18.一种用于生成视频的装置，包括：

19.一种电子设备，包括：

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时使所述处理器实现根据权利要求1至16中任一项所述的方法。

...

【技术特征摘要】