一种用于音视频内容生成的模型的训练方法、装置制造方法及图纸

技术编号:44519233 阅读:22 留言:0更新日期:2025-03-07 13:12
本申请公开了一种用于音视频内容生成的模型的训练方法、装置,包括:将样本数据中的完整视频数据和完整音频数据输入至待训练用于音视频内容生成的模型,使得该待训练模型提取第一视频特征和第一音频特征,并通过第一视频特征和第一音频特征获取该样本数据的控制因子,将该样本数据中的完整视频数据、完整音频数据的第一非完整音频数据输入至待训练模型,将该样本数据中的完整视频数据的第一非完整视频数据、完整音频数据输入至待训练模型,使得待训练模型将其所获取的视频特征和音频特征与该样本数据的控制因子融合,以对待训练模型进行预训练,得到预训练模型,基于预训练模型进行生成内容可控模型的训练,本申请提高了模型其生成能力。

【技术实现步骤摘要】

本专利技术涉及生成式人工智能领域,特别地,涉及一种音视频内容生成的模型的训练方法、装置。


技术介绍

1、随着生成式人工智能(aigc)技术的发展,其应用潜力得到发掘,例如电影制作、广告制作、游戏计算机动画(cg)制作、商业插画制作、短视频内容、音乐短片(mv)创造、数字人生成等等。

2、现有用于音视频内容生成的模型,例如生成式模型,需要大量的样本数据进行训练才能使用。但是当前面临以下技术瓶颈:

3、1.样本数据难以收集。例如,电影制作、广告制作、游戏cg等属于不同的领域,不同的领域需要不同的样本数据,收集样本数据的难度大,工作量大。

4、2.每个领域的样本数据人工标注成本过高。

5、3.每个领域的模型不能互通,同时单一领域的模型其生成能力也非常有限。

6、4.生成内容单一、无法多样性,因为多样性会导致风险内容生成,所以目前尽可能只生成单一场景。

7、5、无法解决零样本问题。


技术实现思路

1、本专利技术提供了一种用于音视频内容生成的模型的本文档来自技高网...

【技术保护点】

1.一种用于音视频内容生成的模型的训练方法,其特征在于,该方法包括:

2.如权利要求1所述的训练方法,其特征在于,该方法进一步包括:

3.如权利要求1所述的训练方法,其特征在于

4.如权利要求2所述的训练方法,其特征在于,所述控制因子类别以如下方式获得:将所提取的样本数据的控制因子进行分类,得到样本数据的控制因子类别数据,

5.如权利要求4所述的训练方法,其特征在于,所述将所提取的样本数据的控制因子进行分类,包括:按照聚类算法,对控制因子进行分类;

6.如权利要求5所述的训练方法,其特征在于,该方法进一步包括

7....

【技术特征摘要】

1.一种用于音视频内容生成的模型的训练方法,其特征在于,该方法包括:

2.如权利要求1所述的训练方法,其特征在于,该方法进一步包括:

3.如权利要求1所述的训练方法,其特征在于

4.如权利要求2所述的训练方法,其特征在于,所述控制因子类别以如下方式获得:将所提取的样本数据的控制因子进行分类,得到样本数据的控制因子类别数据,

5.如权利要求4所述的训练方法,其特征在于,所述将所提取的样本数据的控制因子进行分类,包括:按照聚类算...

【专利技术属性】
技术研发人员:钟雨崎艾国杨作兴
申请(专利权)人:北京边锋信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1