【技术实现步骤摘要】
基于语音驱动的数字人图像生成方法、装置及存储介质
[0001]本专利技术涉及数字人
,尤其涉及一种基于语音驱动的数字人图像生成方法、装置及存储介质。
技术介绍
[0002]数字人是指存在于非物理世界中,由计算机手段创造及使用,并具备多重人格特征(外貌特征、交互能力、表演能力等)的综合产物。数字人整合人物形象模拟、人物声音克隆、自然语言处理等众多前沿的人工智能技术,已被广泛应用于新闻播报、手语生成、虚拟演员、线上教学等场景。在金融领域,数字人技术可用于生成智能理财顾问、智能客服等角色,提供以客户为中心且智能高效的人性化服务。
[0003]虚拟数字人从形象类型上可以分为2D、3D卡通、3D超写实。其中2D数字人是指通过采集真人在专业录影棚录制的说话视频数据,训练出一个与真人无异,可以根据给定语音说话的虚拟形象。
[0004]目前,2D数字人的生成方式包括:直接根据语音和参考人脸图像生成具有对应唇形的数字人人脸,但是该方式直接学习语音到像素空间的映射,难以生成质量较好的对应唇形;通过语音生成对应唇形的中间表达,再利用这些中间表达生成人脸图像,这种方式有效地借助了唇形的几何形状约束,但是唇形的变化与人脸形状、头部运动耦合在一起,难以根据语音生成同步且细节丰富的唇形。现有数字人的生成方式导致唇形与语音不能完美匹配,唇形细节表现力不够,与真人说话的唇形有一定差距。
[0005]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0006]本专 ...
【技术保护点】
【技术特征摘要】
1.一种基于语音驱动的数字人图像生成方法,其特征在于,所述基于语音驱动的数字人图像生成方法包括以下步骤:将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数;将预设FLAME通用头部模型参数中除53维表情之外的其他参数以及所述第一53维表情唇形系数,进行人脸三维重建,以获得多个人脸渲染图;将各个所述人脸渲染图输入目标生成对抗网络模型,以生成各个所述人脸渲染图对应的目标人脸图像。2.如权利要求1所述的基于语音驱动的数字人图像生成方法,其特征在于,所述将待预测语音输入目标唇形系数推断模型进行预测,以获得多个第一53维表情唇形系数的步骤之前,所述基于语音驱动的数字人图像生成方法还包括:获取待训练音视频数据对应的音频数据以及视频数据中各个视频帧,并获取各个视频帧对应的人脸图像以及所述人脸图像对应的预设FLAME通用头部模型参数;将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数;基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图;将各个视频帧对应的人脸合成图以及人脸图像,输入初始生成对抗网络模型进行模型训练,以获得所述目标生成对抗网络模型。3.如权利要求2所述的基于语音驱动的数字人图像生成方法,其特征在于,所述将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据,输入初始唇形系数推断模型进行模型训练,以获得所述目标唇形系数推断模型以及第二53维表情唇形系数的步骤包括:将各个所述预设FLAME通用头部模型参数中的53维表情与音频数据进行时间帧对齐,以获得训练数据;将所述训练数据输入所述初始唇形系数推断模型进行模型训练,以获得训练后的唇形系数推断模型;若训练后的唇形系数推断模型的第一损失函数小于第一预设值,则将训练后的唇形系数推断模型作为所述目标唇形系数推断模型,并将当前模型训练的输出数据作为所述第二53维表情唇形系数;其中,所述初始唇形系数推断模型包括位置编码器、Transformer编码器以及线性层,所述Transformer编码器包括6个编码层。4.如权利要求2所述的基于语音驱动的数字人图像生成方法,其特征在于,所述基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像,生成各个视频帧对应的人脸合成图的步骤包括:将所述第二53维表情唇形系数以及所述预设FLAME通用头部模型参数中除53维表情之外的其他参数进行渲染,以获得各个视频帧对应的人脸渲染图;基于各个所述人脸图像的人脸关键点,生成各个视频帧对应的脸部掩模;
基于所述人脸渲染图、脸部掩模以及所述人脸图像,生成各个视频帧对应的人脸合成图。5.如权...
【专利技术属性】
技术研发人员:潘涛,朱勰戎,李国鸣,钱学成,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。