数字人视频的生成方法、装置、终端设备和存储介质制造方法及图纸

技术编号:41353000 阅读:23 留言:0更新日期:2024-05-20 10:05
本申请适用于数字人技术领域,提供了一种数字人视频的生成方法、装置、终端设备和存储介质。上述数字人视频的生成方法包括:获取原始音频,并从原始音频中提取出第一语音特征向量;将第一语音特征向量输入音唇同步网络,得到对应的第一3DMM人脸参数;对第一3DMM人脸参数进行渲染,得到第一下半人脸渲染图;获取原始视频,并从原始视频中提取出第一上半人脸图像;将第一下半人脸渲染图以及第一上半人脸图像输入对抗神经网络,得到完整人脸图像;基于完整人脸图像,生成数字人视频。本申请实施例既保留了原始视频对应的模拟对象的形象,口型又与原始音频匹配,生成的数字人视频很自然、真实,使得生成的数字人视频可以跨音域、跨语种。

【技术实现步骤摘要】

本申请属于数字人,尤其涉及一种数字人视频的生成方法、装置、终端设备和存储介质


技术介绍

1、数字人是一种通过数字技术模拟人类外形、声音、情感等特征的虚拟人物。它们具有高度的逼真度和灵活性,可以用于教育、医疗、游戏、娱乐、虚拟展览等应用场景。在相关技术中,数字人通常是根据模特(数字人的模仿对象)的外形以及声音生成的,因此生成的数字人发出的声音是与模特的声音类似。因此在相关技术中,难以生成可以跨音域、跨语种的数字人视频,例如如果模特是女生,则生成的数字人难以发出男声,如果模特说中文,则生成的数字人难以说英文。


技术实现思路

1、本申请实施例提供一种数字人视频的生成方法、装置、终端设备和存储介质,可以解决相关技术中难以生成可以跨音域、跨语种的数字人视频的问题。

2、第一方面,本申请实施例提供了一种数字人视频的生成方法,包括:

3、获取原始音频,并从所述原始音频中提取出第一语音特征向量;

4、将所述第一语音特征向量输入音唇同步网络,得到对应的第一3dmm人脸参数;

5本文档来自技高网...

【技术保护点】

1.一种数字人视频的生成方法,其特征在于,包括:

2.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一语音特征向量输入音唇同步网络,得到对应的第一3DMM人脸参数之前,所述方法还包括:

3.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对待训练的待训练音唇同步网络进行预训练,得到预训练音唇同步网络,包括:

4.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对所述预训练音唇同步网络进行定制化训练,得到训练好的所述音唇同步网络,包括:

5.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第...

【技术特征摘要】

1.一种数字人视频的生成方法,其特征在于,包括:

2.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一语音特征向量输入音唇同步网络,得到对应的第一3dmm人脸参数之前,所述方法还包括:

3.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对待训练的待训练音唇同步网络进行预训练,得到预训练音唇同步网络,包括:

4.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对所述预训练音唇同步网络进行定制化训练,得到训练好的所述音唇同步网络,包括:

5.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络,得到完整人脸图像之前,所述方法还包括:

...

【专利技术属性】
技术研发人员:阮霁阳
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1