交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品制造方法及图纸

技术编号:45536480 阅读:18 留言:0更新日期:2025-06-13 17:37
本公开涉及图像生成技术领域,尤其涉及一种交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品。所述交互数字人生成模型包括对话大语言模型和数字人驱动模型,且所述数字人驱动模型与所述对话大语言模型的目标隐含层连接,所述方法包括:将训练音频片段输入所述对话大语言模型,通过所述目标隐含层输出所述训练音频片段对应的第一音频特征向量;通过所述数字人驱动模型基于所述第一音频特征向量,生成所述训练音频片段对应的合成视频帧序列;根据所述训练音频片段对应的目标视频帧序列和所述合成视频帧序列,更新所述数字人驱动模型的参数。本公开能够降低交互数字人的响应延迟,并使数字人形象更自然。

【技术实现步骤摘要】

本公开涉及图像生成,尤其涉及一种交互数字人生成模型的训练方法、交互数字人的生成方法、交互数字人生成模型的训练装置、交互数字人的生成装置、非易失性计算机可读存储介质和计算机程序产品。


技术介绍

1、交互数字人是一种基于人工智能技术的虚拟形象,能够通过语音、表情、动作等自然方式与用户进行实时互动。交互数字人通常由语音识别、自然语言处理、语音合成、计算机视觉等技术驱动,广泛应用于客服、教育、直播等场景,以模拟真人交互体验。交互数字人可分为2d(2 dimensions,二维)或3d(3 dimensions,三维)形式,通过分析用户输入(如语音或文本)生成多模态输出(如语音回复、表情和动作),从而提供更生动的人机交互服务。如何降低交互数字人的生成延迟,是亟待解决的技术问题。


技术实现思路

1、有鉴于此,本公开提供了一种交互数字人的生成技术方案。

2、根据本公开的一方面,提供了一种交互数字人生成模型的训练方法,所述交互数字人生成模型包括对话大语言模型和数字人驱动模型,且所述数字人驱动模型与所述对话大语言模本文档来自技高网...

【技术保护点】

1.一种交互数字人生成模型的训练方法,其特征在于,所述交互数字人生成模型包括对话大语言模型和数字人驱动模型,且所述数字人驱动模型与所述对话大语言模型的目标隐含层连接,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标隐含层为所述对话大语言模型的最后一层隐含层。

3.根据权利要求1所述的方法,其特征在于,所述数字人驱动模型包括音频编码器、图像编码器和图像解码器,且所述数字人驱动模型中的音频编码器与所述目标隐含层连接;

4.根据权利要求1所述的方法,其特征在于,在所述数字人驱动模型的参数更新过程中,所述对话大语言模型的参数保持固定。

...

【技术特征摘要】

1.一种交互数字人生成模型的训练方法,其特征在于,所述交互数字人生成模型包括对话大语言模型和数字人驱动模型,且所述数字人驱动模型与所述对话大语言模型的目标隐含层连接,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标隐含层为所述对话大语言模型的最后一层隐含层。

3.根据权利要求1所述的方法,其特征在于,所述数字人驱动模型包括音频编码器、图像编码器和图像解码器,且所述数字人驱动模型中的音频编码器与所述目标隐含层连接;

4.根据权利要求1所述的方法,其特征在于,在所述数字人驱动模型的参数更新过程中,所述对话大语言模型的参数保持固定。

5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述根据所述训练音频片段对应的目标视频帧序列和所述合成视频帧序列,更新所述数字人驱动模型的参数,包括:

6.根据权利要求1所述的方法,其特征在于,在所述将训练音频片段输入所述对话大语言模型之前,所述方法还包括:

7.根据权利要求1或6所述的方法,其特征在于,所述对话大语言模型在训练过程中交替输出文本标记和音频标记。

...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1