基于语音驱动的数字人图像生成方法、装置及存储介质制造方法及图纸

技术编号：38862668 阅读：21 留言：0更新日期：2023-09-17 10:04

本发明专利技术公开了一种基于语音驱动的数字人图像生成方法、装置及存储介质，其方法包括：将待预测语音输入目标唇形系数推断模型进行预测，以获得多个第一53维表情唇形系数；将预设FLAME通用头部模型参数中除所述53维表情之外的其他参数以及所述第一53维表情唇形系数，进行人脸三维重建，以获得多个人脸渲染图；将各个所述人脸渲染图输入目标生成对抗网络模型，以生成各个所述人脸渲染图对应的目标人脸图像。本发明专利技术通过唇形系数推断模型学习语音到数字人唇形变化的映射关系，使得数字人唇形与语音的匹配以及精确同步。音的匹配以及精确同步。音的匹配以及精确同步。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音驱动的数字人图像生成方法、装置及存储介质

[0001]本专利技术涉及数字人
，尤其涉及一种基于语音驱动的数字人图像生成方法、装置及存储介质。

技术介绍

[0002]数字人是指存在于非物理世界中，由计算机手段创造及使用，并具备多重人格特征(外貌特征、交互能力、表演能力等)的综合产物。数字人整合人物形象模拟、人物声音克隆、自然语言处理等众多前沿的人工智能技术，已被广泛应用于新闻播报、手语生成、虚拟演员、线上教学等场景。在金融领域，数字人技术可用于生成智能理财顾问、智能客服等角色，提供以客户为中心且智能高效的人性化服务。
[0003]虚拟数字人从形象类型上可以分为2D、3D卡通、3D超写实。其中2D数字人是指通过采集真人在专业录影棚录制的说话视频数据，训练出一个与真人无异，可以根据给定语音说话的虚拟形象。
[0004]目前，2D数字人的生成方式包括：直接根据语音和参考人脸图像生成具有对应唇形的数字人人脸，但是该方式直接学习语音到像素空间的映射，难以生成质量较好的对应唇形；通过语音生成对应唇形的中间表达，再利用这些中间表达生成人脸图像，这种方式有效地借助了唇形的几何形状约束，但是唇形的变化与人脸形状、头部运动耦合在一起，难以根据语音生成同步且细节丰富的唇形。现有数字人的生成方式导致唇形与语音不能完美匹配，唇形细节表现力不够，与真人说话的唇形有一定差距。
[0005]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0006]本专...

【技术保护点】

【技术特征摘要】
1.一种基于语音驱动的数字人图像生成方法，其特征在于，所述基于语音驱动的数字人图像生成方法包括以下步骤：将待预测语音输入目标唇形系数推断模型进行预测，以获得多个第一53维表情唇形系数；将预设FLAME通用头部模型参数中除53维表情之外的其他参数以及所述第一53维表情唇形系数，进行人脸三维重建，以获得多个人脸渲染图；将各个所述人脸渲染图输入目标生成对抗网络模型，以生成各个所述人脸渲染图对应的目标人脸图像。2.如权利要求1所述的基于语音驱动的数字人图像生成方法，其特征在于，所述将待预测语音输入目标唇形系数推断模型进行预测，以获得多个第一53维表情唇形系数的步骤之前，所述基于语音驱动的数字人图像生成方法还包括：获取待训练音视频数据对应的音频数据以及视频数据中各个视频帧，并获取各个视频帧对应的人脸图像以及所述人脸图像对应的预设FLAME通用头部模型参数；将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据，输入初始唇形系数推断模型进行模型训练，以获得所述目标唇形系数推断模型以及第二53维表情唇形系数；基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像，生成各个视频帧对应的人脸合成图；将各个视频帧对应的人脸合成图以及人脸图像，输入初始生成对抗网络模型进行模型训练，以获得所述目标生成对抗网络模型。3.如权利要求2所述的基于语音驱动的数字人图像生成方法，其特征在于，所述将各个所述预设FLAME通用头部模型参数中的53维表情以及所述音频数据，输入初始唇形系数推断模型进行模型训练，以获得所述目标唇形系数推断模型以及第二53维表情唇形系数的步骤包括：将各个所述预设FLAME通用头部模型参数中的53维表情与音频数据进行时间帧对齐，以获得训练数据；将所述训练数据输入所述初始唇形系数推断模型进行模型训练，以获得训练后的唇形系数推断模型；若训练后的唇形系数推断模型的第一损失函数小于第一预设值，则将训练后的唇形系数推断模型作为所述目标唇形系数推断模型，并将当前模型训练的输出数据作为所述第二53维表情唇形系数；其中，所述初始唇形系数推断模型包括位置编码器、Transformer编码器以及线性层，所述Transformer编码器包括6个编码层。4.如权利要求2所述的基于语音驱动的数字人图像生成方法，其特征在于，所述基于所述第二53维表情唇形系数、所述预设FLAME通用头部模型参数以及所述人脸图像，生成各个视频帧对应的人脸合成图的步骤包括：将所述第二53维表情唇形系数以及所述预设FLAME通用头部模型参数中除53维表情之外的其他参数进行渲染，以获得各个视频帧对应的人脸渲染图；基于各个所述人脸图像的人脸关键点，生成各个视频帧对应的脸部掩模；
基于所述人脸渲染图、脸部掩模以及所述人脸图像，生成各个视频帧对应的人脸合成图。5.如权...

【专利技术属性】
技术研发人员：潘涛，朱勰戎，李国鸣，钱学成，
申请(专利权)人：招商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人