【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于基于人工智能的内容生成等场景。
技术介绍
1、近年来,大模型技术发展快速,在跨模态生成领域取得显著突破。例如,在文生视频任务中,大模型能够捕捉文本语义与视觉动态之间的关联,将文字描述转化为连贯的动态帧序列,进而生成对应的视频内容。
技术实现思路
1、本公开提供了视频生成模型的训练方法、视频生成方法和装置。
2、根据本公开的一方面,提供了一种视频生成模型的训练方法,包括:
3、对预训练的第一模型进行结构改造,以得到第二模型,并将该第二模型的输出端连接至预先生成的分类器;
4、获取训练数据,该训练数据中包含样本视频及对应的样本指令;
5、将样本指令输入该第二模型,由该第二模型生成结果视频,并由分类器生成结果视频对应的运动类型预测结果;
6、基于结果视频、样本视频、运动类型预测结果及样本指令,确定综合损失函数;
7、利用综合损失函数对第二模型进行微调,以得到
<本文档来自技高网...【技术保护点】
1.一种视频生成模型的训练方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述结果视频、所述样本视频、所述运动类型预测结果及所述样本指令,确定综合损失函数,包括:
3.根据权利要求2所述的方法,其中,所述第一损失函数包括均方误差损失函数,所述第二损失函数包括交叉熵损失函数或相对熵损失函数。
4.根据权利要求3所述的方法,其中,所述样本指令中包含目标对象信息和相机运动信息,所述目标对象信息中包含目标对象描述信息和目标对象运动信息;
5.根据权利要求4所述的方法,其中,所述运动类型真实结果包括以下至少之一:
...【技术特征摘要】
1.一种视频生成模型的训练方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述结果视频、所述样本视频、所述运动类型预测结果及所述样本指令,确定综合损失函数,包括:
3.根据权利要求2所述的方法,其中,所述第一损失函数包括均方误差损失函数,所述第二损失函数包括交叉熵损失函数或相对熵损失函数。
4.根据权利要求3所述的方法,其中,所述样本指令中包含目标对象信息和相机运动信息,所述目标对象信息中包含目标对象描述信息和目标对象运动信息;
5.根据权利要求4所述的方法,其中,所述运动类型真实结果包括以下至少之一:
6.根据权利要求4或5中任一所述的方法,其中,所述预训练的第一模型包含第一编码模块和生成器,所述第一编码模块的输出端连接所述生成器的输入端;
7.根据权利要求6所述的方法,其中,所述将所述样本指令输入所述第二模型,由所述第二模型生成结果视频,包括:
8.根据权利要求6或7所述的方法,其中,所述利用所述综合损失函数对所述第二模型进行微调,包括:
【专利技术属性】
技术研发人员:王若瑜,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。