视频生成模型的训练方法、视频生成方法和装置制造方法及图纸

技术编号：46590662 阅读：1 留言：0更新日期：2025-10-10 21:24

本公开提供了视频生成模型的训练方法、视频生成方法和装置，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于基于人工智能的内容生成等场景。具体实现方案为：对预训练的第一模型进行结构改造，以得到第二模型，并将该第二模型的输出端连接至预先生成的分类器；获取训练数据，该训练数据中包含样本视频及对应的样本指令；将样本指令输入该第二模型，由该第二模型生成结果视频，并由分类器生成结果视频对应的运动类型预测结果；基于结果视频、样本视频、运动类型预测结果及样本指令，确定综合损失函数；利用综合损失函数对第二模型进行微调，以得到第三模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习、大模型等，可应用于基于人工智能的内容生成等场景。

技术介绍

1、近年来，大模型技术发展快速，在跨模态生成领域取得显著突破。例如，在文生视频任务中，大模型能够捕捉文本语义与视觉动态之间的关联，将文字描述转化为连贯的动态帧序列，进而生成对应的视频内容。

技术实现思路

1、本公开提供了视频生成模型的训练方法、视频生成方法和装置。

2、根据本公开的一方面，提供了一种视频生成模型的训练方法，包括：

3、对预训练的第一模型进行结构改造，以得到第二模型，并将该第二模型的输出端连接至预先生成的分类器；

4、获取训练数据，该训练数据中包含样本视频及对应的样本指令；

5、将样本指令输入该第二模型，由该第二模型生成结果视频，并由分类器生成结果视频对应的运动类型预测结果；

6、基于结果视频、样本视频、运动类型预测结果及样本指令，确定综合损失函数；

7、利用综合损失函数对第二模型进行微调，以得到第三模型。

<本文档来自技高网...

【技术保护点】

1.一种视频生成模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述结果视频、所述样本视频、所述运动类型预测结果及所述样本指令，确定综合损失函数，包括：

3.根据权利要求2所述的方法，其中，所述第一损失函数包括均方误差损失函数，所述第二损失函数包括交叉熵损失函数或相对熵损失函数。

4.根据权利要求3所述的方法，其中，所述样本指令中包含目标对象信息和相机运动信息，所述目标对象信息中包含目标对象描述信息和目标对象运动信息；

5.根据权利要求4所述的方法，其中，所述运动类型真实结果包括以下至少之一：