基于语音驱动的数字人图像生成方法、装置及存储介质制造方法及图纸

技术编号:38862668 阅读:21 留言:0更新日期:2023-09-17 10:04
本发明专利技术公开了一种基于语音驱动的数字人图像生成方法、装置及存储介质,其方法包括:将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数;将预设FLAME通用头部模型参数中除所述53维表情之外的其他参数以及所述第一53维表情唇形系数,进行人脸三维重建,以获得多个人脸渲染图;将各个所述人脸渲染图输入目标生成对抗网络模型,以生成各个所述人脸渲染图对应的目标人脸图像。本发明专利技术通过唇形系数推断模型学习语音到数字人唇形变化的映射关系,使得数字人唇形与语音的匹配以及精确同步。音的匹配以及精确同步。音的匹配以及精确同步。

【技术实现步骤摘要】
基于语音驱动的数字人图像生成方法、装置及存储介质


[0001]本专利技术涉及数字人
,尤其涉及一种基于语音驱动的数字人图像生成方法、装置及存储介质。

技术介绍

[0002]数字人是指存在于非物理世界中,由计算机手段创造及使用,并具备多重人格特征(外貌特征、交互能力、表演能力等)的综合产物。数字人整合人物形象模拟、人物声音克隆、自然语言处理等众多前沿的人工智能技术,已被广泛应用于新闻播报、手语生成、虚拟演员、线上教学等场景。在金融领域,数字人技术可用于生成智能理财顾问、智能客服等角色,提供以客户为中心且智能高效的人性化服务。
[0003]虚拟数字人从形象类型上可以分为2D、3D卡通、3D超写实。其中2D数字人是指通过采集真人在专业录影棚录制的说话视频数据,训练出一个与真人无异,可以根据给定语音说话的虚拟形象。
[0004]目前,2D数字人的生成方式包括:直接根据语音和参考人脸图像生成具有对应唇形的数字人人脸,但是该方式直接学习语音到像素空间的映射,难以生成质量较好的对应唇形;通过语音生成对应唇形的中间表达,再利用这些中间表达生成人脸图像,这种方式有效地借助了唇形的几何形状约束,但是唇形的变化与人脸形状、头部运动耦合在一起,难以根据语音生成同步且细节丰富的唇形。现有数字人的生成方式导致唇形与语音不能完美匹配,唇形细节表现力不够,与真人说话的唇形有一定差距。
[0005]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0006]本专利技术的主要目的在于提供一种基于语音驱动的数字人图像生成方法、装置及存储介质,旨在解决现有数字人唇形与语音不匹配的技术问题。
[0007]为实现上述目的,本专利技术提供一种基于语音驱动的数字人图像生成方法,所述基于语音驱动的数字人图像生成方法包括以下步骤:
[0008]将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数;
[0009]将预设FLAME通用头部模型参数中除所述53维表情之外的其他参数以及所述第一53维表情唇形系数,进行人脸三维重建,以获得多个人脸渲染图;
[0010]将各个所述人脸渲染图输入目标生成对抗网络模型,以生成各个所述人脸渲染图对应的目标人脸图像。
[0011]进一步地,所述将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数的步骤之前,所述基于语音驱动的数字人图像生成方法还包括:
[0012]获取待训练音视频数据对应的音频数据以及视频数据中各个视频帧,并获取各个
视频帧对应的人脸图像以及所述人脸图像对应的预设FLAME通用头部模型参数;
[0013]将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数;
[0014]基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图;
[0015]将各个视频帧对应的人脸合成图以及人脸图像,输入初始生成对抗网络模型进行模型训练,以获得所述目标生成对抗网络模型。
[0016]进一步地,所述将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数的步骤包括:
[0017]将各个所述预设FLAME通用头部模型参数中的53维表情与音频数据进行时间帧对齐,以获得训练数据;
[0018]将所述训练数据输入所述初始唇形系数推断模型进行模型训练,以获得训练后的唇形系数推断模型;
[0019]若训练后的唇形系数推断模型的第一损失函数小于第一预设值,则将训练后的唇形系数推断模型作为所述目标唇形系数推断模型,并将当前模型训练的输出数据作为所述第二53维表情唇形系数;
[0020]其中,所述初始唇形系数推断模型包括位置编码器、Transformer编码器以及线性层,所述Transformer编码器包括6个编码层。
[0021]进一步地,所述基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图的步骤包括:
[0022]将所述第二53维表情唇形系数以及所述预设FLAME通用头部模型参数中除53维表情之外的其他参数进行渲染,以获得各个视频帧对应的人脸渲染图;
[0023]基于各个所述人脸图像的人脸关键点,生成各个视频帧对应的脸部掩模;
[0024]基于所述人脸渲染图、脸部掩模以及所述人脸图像,生成各个视频帧对应的人脸合成图。
[0025]进一步地,所述将各个视频帧对应的人脸合成图以及人脸图像,输入初始生成对抗网络模型进行模型训练,以获得所述目标生成对抗网络模型的步骤包括:
[0026]将各个视频帧对应的人脸合成图以及人脸图像,输入初始生成对抗网络模型进行模型训练,以获得训练后的生成对抗网络模型;
[0027]若训练后的生成对抗网络模型的第二损失函数小于第二预设值,则将训练后的生成对抗网络模型作为所述目标生成对抗网络模型。
[0028]进一步地,所述生成对抗网络模型包括人脸判别器和牙齿区域面部组件判别器;所述若训练后的生成对抗网络模型的第二损失函数小于第二预设值,则将训练后的生成对抗网络模型作为所述目标生成对抗网络模型的步骤包括:
[0029]基于训练后的生成对抗网络模型,获取人脸重建误差、人脸判别器对应的人脸判别误差以及牙齿区域面部组件判别器对应的面部组件误差;
[0030]基于所述人脸重建误差、人脸判别误差以及所述面部组件误差,确定所述第二损
失函数;
[0031]若训练后的生成对抗网络模型的第二损失函数小于第二预设值,则将训练后的生成对抗网络模型作为所述目标生成对抗网络模型。
[0032]进一步地,所述获取待训练音视频数据对应的音频数据以及视频数据中各个视频帧,并获取各个视频帧对应的人脸图像以及所述人脸图像对应的预设FLAME通用头部模型参数的步骤包括:
[0033]获取待处理音视频数据对应的音频数据以及视频数据;
[0034]获取视频数据中各个视频帧对应的人脸图像;
[0035]将各个所述人脸图像输入FLAME通用头部模型,获得各个视频帧对应的预设FLAME通用头部模型参数,其中,预设FLAME通用头部模型参数包括:100维形状、53维表情、50维纹理、6维光照、3维投影参数。
[0036]进一步地,所述将各个所述人脸渲染图输入目标生成对抗网络模型,以生成各个所述人脸渲染图对应的目标人脸图像的步骤之后,所述基于语音驱动的数字人图像生成方法还包括:
[0037]将所述待预测语音与各个所述目标人脸图像进行时间帧对齐,以生成所述待预测语音对应的数字人音视频。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音驱动的数字人图像生成方法,其特征在于,所述基于语音驱动的数字人图像生成方法包括以下步骤:将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数;将预设FLAME通用头部模型参数中除53维表情之外的其他参数以及所述第一53维表情唇形系数,进行人脸三维重建,以获得多个人脸渲染图;将各个所述人脸渲染图输入目标生成对抗网络模型,以生成各个所述人脸渲染图对应的目标人脸图像。2.如权利要求1所述的基于语音驱动的数字人图像生成方法,其特征在于,所述将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数的步骤之前,所述基于语音驱动的数字人图像生成方法还包括:获取待训练音视频数据对应的音频数据以及视频数据中各个视频帧,并获取各个视频帧对应的人脸图像以及所述人脸图像对应的预设FLAME通用头部模型参数;将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数;基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图;将各个视频帧对应的人脸合成图以及人脸图像,输入初始生成对抗网络模型进行模型训练,以获得所述目标生成对抗网络模型。3.如权利要求2所述的基于语音驱动的数字人图像生成方法,其特征在于,所述将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数的步骤包括:将各个所述预设FLAME通用头部模型参数中的53维表情与音频数据进行时间帧对齐,以获得训练数据;将所述训练数据输入所述初始唇形系数推断模型进行模型训练,以获得训练后的唇形系数推断模型;若训练后的唇形系数推断模型的第一损失函数小于第一预设值,则将训练后的唇形系数推断模型作为所述目标唇形系数推断模型,并将当前模型训练的输出数据作为所述第二53维表情唇形系数;其中,所述初始唇形系数推断模型包括位置编码器、Transformer编码器以及线性层,所述Transformer编码器包括6个编码层。4.如权利要求2所述的基于语音驱动的数字人图像生成方法,其特征在于,所述基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图的步骤包括:将所述第二53维表情唇形系数以及所述预设FLAME通用头部模型参数中除53维表情之外的其他参数进行渲染,以获得各个视频帧对应的人脸渲染图;基于各个所述人脸图像的人脸关键点,生成各个视频帧对应的脸部掩模;
基于所述人脸渲染图、脸部掩模以及所述人脸图像,生成各个视频帧对应的人脸合成图。5.如权...

【专利技术属性】
技术研发人员:潘涛朱勰戎李国鸣钱学成
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1