虚拟人生成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:42386121 阅读:22 留言:0更新日期:2024-08-16 16:13
本申请实施例公开一种虚拟人生成模型的训练方法、装置、设备及存储介质。虚拟人生成模型的训练方法,包括:获得生成虚拟人的预训练模型;向所述预训练模型输入音频和人脸图像,并冻结所述预训练模型中的音频编码器的参数;为所述预训练模型的图像处理网络构造LoRA结构;冻结所述图像处理网络的预训练模型参数,并通过为所述图像处理网络构造的LoRA结构对所述图像处理网络进行LoRA训练,得到旁路参数;融合所述图像处理网络的预训练模型参数和旁路参数,以完成所述预训练模型的微调。本申请的实施例,可以有效地提升虚拟人的表现效果,使其能够精准地实现语言口播,使得虚拟人更加逼真,更好地满足多种场景的需求。

【技术实现步骤摘要】

本申请实施例涉及人工智能,具体而言,涉及一种虚拟人生成模型的训练方法、装置、设备及存储介质


技术介绍

1、随着人工智能技术的快速发展,尤其是近年来的aigc技术(包括自然语言、图像、音频等多模态处理技术)取得重要突破,虚拟人技术进入了一个新的阶段。虚拟人的制作成本、真实度和交互能力得到了很大的提升,逐渐在很多领域被广泛应用,如虚拟教师、虚拟主播、人工智能医生等场景。

2、虚拟人的构建,指的是在给定一个特定的人物形象和一段语音音频或一段文本的情况下,能够根据音频或文本来驱动人物形象,使其做出正确的口型和头部动作,从而生成一段看起来“真实”的视频。对于虚拟主播和虚拟教师等应用,对虚拟人的要求更高,如何利用语言和数据量有限的人物形象数据,精确构建虚拟人模型,并让该形象虚拟人实现多语言的精准口播是虚拟人定制化中的一个难题。

3、基于gan的虚拟人技术,目前在虚拟人形象的语种和数据量有限的情况下实现多语种虚拟人定制化训练,主要有两种方案,一种是基于连续学习的策略,将单个虚拟人的数据的拟合作为一个新的任务,进行一个域增量学习,通过构建正则化策本文档来自技高网...

【技术保护点】

1.一种虚拟人生成模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的虚拟人生成模型的训练方法,其特征在于,所述为所述预训练模型的图像处理网络构造LoRA结构,包括:

3.根据权利要求2所述的虚拟人生成模型的训练方法,其特征在于,所述冻结所述图像处理网络的预训练模型参数,并通过为所述图像处理网络构造的LoRA结构对所述图像处理网络进行LoRA训练,得到旁路参数,包括:

4.根据权利要求3所述的虚拟人生成模型的训练方法,其特征在于,所述融合所述图像处理网络的预训练模型参数和旁路参数,以完成所述预训练模型的微调,包括:

<p>5.根据权利要求...

【技术特征摘要】

1.一种虚拟人生成模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的虚拟人生成模型的训练方法,其特征在于,所述为所述预训练模型的图像处理网络构造lora结构,包括:

3.根据权利要求2所述的虚拟人生成模型的训练方法,其特征在于,所述冻结所述图像处理网络的预训练模型参数,并通过为所述图像处理网络构造的lora结构对所述图像处理网络进行lora训练,得到旁路参数,包括:

4.根据权利要求3所述的虚拟人生成模型的训练方法,其特征在于,所述融合所述图像处理网络的预训练模型参数和旁路参数,以完成所述预训练模型的微调,包括:

5.根据权利要求1-4任一项所述的虚拟人生成模型的训练方法,其特征在于,在进行所述lora训练的过程中,输入多语种的...

【专利技术属性】
技术研发人员:李奇
申请(专利权)人:万兴科技湖南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1