System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于数字人,尤其涉及一种数字人视频的生成方法、装置、终端设备和存储介质。
技术介绍
1、数字人是一种通过数字技术模拟人类外形、声音、情感等特征的虚拟人物。它们具有高度的逼真度和灵活性,可以用于教育、医疗、游戏、娱乐、虚拟展览等应用场景。在相关技术中,数字人通常是根据模特(数字人的模仿对象)的外形以及声音生成的,因此生成的数字人发出的声音是与模特的声音类似。因此在相关技术中,难以生成可以跨音域、跨语种的数字人视频,例如如果模特是女生,则生成的数字人难以发出男声,如果模特说中文,则生成的数字人难以说英文。
技术实现思路
1、本申请实施例提供一种数字人视频的生成方法、装置、终端设备和存储介质,可以解决相关技术中难以生成可以跨音域、跨语种的数字人视频的问题。
2、第一方面,本申请实施例提供了一种数字人视频的生成方法,包括:
3、获取原始音频,并从所述原始音频中提取出第一语音特征向量;
4、将所述第一语音特征向量输入音唇同步网络,得到对应的第一3dmm人脸参数;
5、对所述第一3dmm人脸参数进行渲染,得到第一下半人脸渲染图;
6、获取原始视频,并从所述原始视频中提取出第一上半人脸图像;
7、将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络,得到完整人脸图像;
8、基于所述完整人脸图像,生成数字人视频。
9、第二方面,本申请实施例提供了一种数字人视频的生成装置,包括:
...【技术保护点】
1.一种数字人视频的生成方法,其特征在于,包括:
2.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一语音特征向量输入音唇同步网络,得到对应的第一3DMM人脸参数之前,所述方法还包括:
3.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对待训练的待训练音唇同步网络进行预训练,得到预训练音唇同步网络,包括:
4.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对所述预训练音唇同步网络进行定制化训练,得到训练好的所述音唇同步网络,包括:
5.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络,得到完整人脸图像之前,所述方法还包括:
6.如权利要求1所述的数字人视频的生成方法,其特征在于,所述对所述第一3DMM人脸参数进行渲染,得到第一下半人脸渲染图,包括:
7.如权利要求1所述的数字人视频的生成方法,其特征在于,所述获取原始视频,并从所述原始视频中提取出第一上半人脸图像,包括:
8.一种数字人
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数字人视频的生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字人视频的生成方法的步骤。
...【技术特征摘要】
1.一种数字人视频的生成方法,其特征在于,包括:
2.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一语音特征向量输入音唇同步网络,得到对应的第一3dmm人脸参数之前,所述方法还包括:
3.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对待训练的待训练音唇同步网络进行预训练,得到预训练音唇同步网络,包括:
4.如权利要求2所述的数字人视频的生成方法,其特征在于,所述对所述预训练音唇同步网络进行定制化训练,得到训练好的所述音唇同步网络,包括:
5.如权利要求1所述的数字人视频的生成方法,其特征在于,在所述将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络,得到完整人脸图像之前,所述方法还包括:
...
【专利技术属性】
技术研发人员:阮霁阳,
申请(专利权)人:上海积图科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。