一种视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：40918393 阅读：2 留言：0更新日期：2024-04-18 14:44

本发明专利技术公开了一种视频生成方法、装置、设备及存储介质。该方法包括：获取当前模式、噪声视频以及文本提示信息；将所述噪声视频、文本提示信息以及当前模式对应的掩码视频输入目标模型，得到目标去噪视频，其中，所述目标模型通过目标样本集迭代训练第一模型得到，所述目标样本集包括：视频样本和视频样本中的文本标注，通过本发明专利技术的技术方案，能够提升生成视频的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及计算机，尤其涉及一种视频生成方法、装置、设备及存储介质。

技术介绍

1、随着计算机技术的不断发展，视频生成技术也在不断更新；当前，为了提升视频创作的效率，用户可以通过文本直接生成视频，无需再寻找素材、剪辑素材等操作也可以获取到视频，从而减少了制作视频所需的时间；

2、通过文本直接生成视频只会在空间维度对视频生成的内容进行直接引导，但是对于视频生成来说，只从空间维度上使用文本引导往往是不够的，因为视频还存在时间维度，并且文本的语义在某些时候会出现混淆的问题，进而导致生成的视频不准确。

技术实现思路

1、本专利技术实施例提供一种视频生成方法、装置、设备及存储介质，以实现能够提升生成视频的准确度和效率。

2、根据本专利技术的一方面，提供了一种视频生成方法，包括：

3、获取当前模式、噪声视频以及文本提示信息；

4、将所述噪声视频、文本提示信息以及当前模式对应的掩码视频输入目标模型，得到目标去噪视频，其中，所述目标模型通过目标样本集迭代训练第一模型得到，所述目标样本集包括：视频样本和视频样本中的文本标注。

5、根据本专利技术的另一方面，提供了一种视频生成装置，该视频生成装置包括：

6、获取模块，用于获取当前模式、噪声视频以及文本提示信息；

7、目标去噪视频确定模块，用于将所述噪声视频、文本提示信息以及当前模式对应的掩码视频输入目标模型，得到目标去噪视频，其中，所述目标模型通过目标样本集迭代

8、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

9、至少一个处理器；以及

10、与所述至少一个处理器通信连接的存储器；其中，

11、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的视频生成方法。

12、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的视频生成方法。

13、本专利技术实施例通过获取当前模式、噪声视频以及文本提示信息；将所述噪声视频、文本提示信息以及当前模式对应的掩码视频输入目标模型，得到目标去噪视频，其中，所述目标模型通过目标样本集迭代训练第一模型得到，所述目标样本集包括：视频样本和视频样本中的文本标注，能够提升生成视频的准确度和效率。

14、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过目标样本集迭代训练第一模型，包括：

3.根据权利要求1所述的方法，其特征在于，对所述视频样本进行掩码，得到掩码后的视频样本，包括：

4.根据权利要求2所述的方法，其特征在于，所述第一模型从输入到输出方向依次包括：编码器、时空增强网络以及解码器。

5.根据权利要求4所述的方法，其特征在于，将带噪声的视频样本、掩码后的视频样本、视频样本中的文本标注、视觉提示信息输入第一模型，得到预测视频帧，包括：

6.根据权利要求5所述的方法，其特征在于，所述时空增强网络包括至少两个时空增强子网络，所述时空增强子网络从输入到输出方向依次包括：空间卷积层、空间自注意力层、空间图像交互注意力层、空间文本交互注意力层、时间自注意力层以及时间文本交互注意力层。

7.根据权利要求6所述的方法，其特征在于，将所述编码器输出的特征信息和所述时间步输入时空增强网络，得到目标特征信息，包括：

8.根据权利要求7所述的方法，其特征在于，将所述编码器输

9.一种视频生成装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的视频生成方法。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过目标样本集迭代训练第一模型，包括：

3.根据权利要求1所述的方法，其特征在于，对所述视频样本进行掩码，得到掩码后的视频样本，包括：

4.根据权利要求2所述的方法，其特征在于，所述第一模型从输入到输出方向依次包括：编码器、时空增强网络以及解码器。

6.根据权利要求5所述的方法，其特征在于，所述时空增强网络包括至少两个时空增强子网络，所述时空增强子网络从输入到输出方向依次包括：空间卷积层、空...

【专利技术属性】
技术研发人员：庄少彬，黎昆昌，陈昕苑，王耀晖，乔宇，王亚立，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人