视频生成模型的训练方法、视频生成方法和装置制造方法及图纸

技术编号:46590662 阅读:1 留言:0更新日期:2025-10-10 21:24
本公开提供了视频生成模型的训练方法、视频生成方法和装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:对预训练的第一模型进行结构改造,以得到第二模型,并将该第二模型的输出端连接至预先生成的分类器;获取训练数据,该训练数据中包含样本视频及对应的样本指令;将样本指令输入该第二模型,由该第二模型生成结果视频,并由分类器生成结果视频对应的运动类型预测结果;基于结果视频、样本视频、运动类型预测结果及样本指令,确定综合损失函数;利用综合损失函数对第二模型进行微调,以得到第三模型。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于基于人工智能的内容生成等场景。


技术介绍

1、近年来,大模型技术发展快速,在跨模态生成领域取得显著突破。例如,在文生视频任务中,大模型能够捕捉文本语义与视觉动态之间的关联,将文字描述转化为连贯的动态帧序列,进而生成对应的视频内容。


技术实现思路

1、本公开提供了视频生成模型的训练方法、视频生成方法和装置

2、根据本公开的一方面,提供了一种视频生成模型的训练方法,包括:

3、对预训练的第一模型进行结构改造,以得到第二模型,并将该第二模型的输出端连接至预先生成的分类器;

4、获取训练数据,该训练数据中包含样本视频及对应的样本指令;

5、将样本指令输入该第二模型,由该第二模型生成结果视频,并由分类器生成结果视频对应的运动类型预测结果;

6、基于结果视频、样本视频、运动类型预测结果及样本指令,确定综合损失函数;

7、利用综合损失函数对第二模型进行微调,以得到第三模型。

<本文档来自技高网...

【技术保护点】

1.一种视频生成模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述结果视频、所述样本视频、所述运动类型预测结果及所述样本指令,确定综合损失函数,包括:

3.根据权利要求2所述的方法,其中,所述第一损失函数包括均方误差损失函数,所述第二损失函数包括交叉熵损失函数或相对熵损失函数。

4.根据权利要求3所述的方法,其中,所述样本指令中包含目标对象信息和相机运动信息,所述目标对象信息中包含目标对象描述信息和目标对象运动信息;

5.根据权利要求4所述的方法,其中,所述运动类型真实结果包括以下至少之一:

6.根据权利要...

【技术特征摘要】

1.一种视频生成模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述结果视频、所述样本视频、所述运动类型预测结果及所述样本指令,确定综合损失函数,包括:

3.根据权利要求2所述的方法,其中,所述第一损失函数包括均方误差损失函数,所述第二损失函数包括交叉熵损失函数或相对熵损失函数。

4.根据权利要求3所述的方法,其中,所述样本指令中包含目标对象信息和相机运动信息,所述目标对象信息中包含目标对象描述信息和目标对象运动信息;

5.根据权利要求4所述的方法,其中,所述运动类型真实结果包括以下至少之一:

6.根据权利要求4或5中任一所述的方法,其中,所述预训练的第一模型包含第一编码模块和生成器,所述第一编码模块的输出端连接所述生成器的输入端;

7.根据权利要求6所述的方法,其中,所述将所述样本指令输入所述第二模型,由所述第二模型生成结果视频,包括:

8.根据权利要求6或7所述的方法,其中,所述利用所述综合损失函数对所述第二模型进行微调,包括:

【专利技术属性】
技术研发人员:王若瑜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1