一种数字人生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31712622 阅读：9 留言：0更新日期：2022-01-01 11:16

本发明专利技术涉及一种数字人生成方法、装置、电子设备及存储介质，该数字人生成方法可以包括：获取包含第一对象的第一视频；在第一视频中提取第一音频帧和与第一音频帧对应的第一视频帧，在第一视频帧提取去除目标局部区域的第一剩余人脸图片；基于第一音频帧和预设平均人脸模型生成第一对象的目标局部区域内人脸关键点的第一关键点坐标；在预设平均人脸模型中提取与第一音频帧对应的第一全连接层参数，并基于第一全连接层参数确定预设数字人生成模型的第一模型参数；基于第一关键点坐标、第一剩余人脸图片和模型参数为第一模型参数的预设数字人生成模型，生成数字人图片。本发明专利技术实施例可以实现生成数字人图片的过程更加快速。速。速。

全部详细技术资料下载

【技术实现步骤摘要】
一种数字人生成方法、装置、电子设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种数字人生成方法、装置、电子设备及存储介质。

技术介绍

[0002]虚拟数字人，是存在于数字世界的“人”，是通过对动作捕捉、三维建模、语音合成等技术，在数字世界高度还原真实人类，再展示出来的立体“人”。
[0003]若数字人视频生成技术需要实现实时交互，至少需要满足两点，生成效果好和推理速度快；效果好是必要的前提，速度快是商业的需要。
[0004]目前，生成数字人图片的方案，一般是对三维数据进行处理，生成数字人图片的速度比较慢。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种数字人生成方法、装置、电子设备及存储介质。
[0006]第一方面，本申请提供了一种数字人生成方法，包括：
[0007]获取包含第一对象的第一视频；
[0008]在所述第一视频中提取第一音频帧和与所述第一音频帧对应的第一视频帧，在所述第一视频帧提取去除目标局部区域的第一剩余人脸图片；
[0009]基于所述第一音频帧和预设平均人脸模型生成所述第一对象的所述目标局部区域内人脸关键点的第一关键点坐标；
[0010]在所述预设平均人脸模型中提取与所述第一音频帧对应的第一全连接层参数，并基于所述第一全连接层参数确定预设数字人生成模型的第一模型参数；
[0011]基于所述第一关键点坐标、所述第一剩余人脸图片和模型参数为所述第一模型参数的所述预...

【技术保护点】

【技术特征摘要】
1.一种数字人生成方法，其特征在于，包括：获取包含第一对象的第一视频；在所述第一视频中提取第一音频帧和与所述第一音频帧对应的第一视频帧，在所述第一视频帧提取去除目标局部区域的第一剩余人脸图片；基于所述第一音频帧和预设平均人脸模型生成所述第一对象的所述目标局部区域内人脸关键点的第一关键点坐标；在所述预设平均人脸模型中提取与所述第一音频帧对应的第一全连接层参数，并基于所述第一全连接层参数确定预设数字人生成模型的第一模型参数；基于所述第一关键点坐标、所述第一剩余人脸图片和模型参数为所述第一模型参数的所述预设数字人生成模型，生成数字人图片。2.根据权利要求1所述的数字人生成方法，其特征在于，基于所述第一全连接层参数确定预设数字人生成模型的第一模型参数，包括：将所述第一全连接层参数进行反卷积处理，得到第一中间参数；获取所述预设数字人生成模型的第二模型参数，所述第二模型参数为所述预设数字人生成模型训练完毕后确定的模型参数；将所述第一中间参数与所述第二模型参数组合，得到所述第一模型参数。3.根据权利要求2所述的数字人生成方法，其特征在于，将所述第一中间参数与所述第二模型参数组合，得到所述第一模型参数，包括：将所述中间参数分别与所述预设数字人生成模型的编码层对应的第二模型参数、所述预设数字人生成模型的隐藏层对应的第二模型参数及所述预设数字人生成模型的解码层对应的第二模型参数进行合并，得到所述第一模型参数。4.根据权利要求1所述的数字人生成方法，其特征在于，所述预设平均人脸模型的训练方法包括：在包含所述第一对象的第二视频中提取多个第二音频帧和与所述第二音频帧对应的第二视频帧；将所述第二音频帧输入所述预设平均人脸模型，得到与所述第二音频帧对应的第二视频帧中第二人脸关键点的预测坐标值；在所述第二视频帧中提取第二人脸关键点的标签坐标值；基于所述预测坐标值和所述标签坐标值计算第一损失值；若所述第一损失值大于或者等于预设第一阈值，调整所述预设平均人脸模型的模型参数，并执行将所述第二音频帧输入所述预设平均人脸模型，得到与所述第二音频帧对应的第二视频帧中第二人脸关键点的预测坐标值的步骤；若所述第一损失值小于预设第一阈值，确定所述预设平均人脸模型训练完成。5.根据权利要求1所述的数字人生成方法，其特征在于，所述预设数字人生成模型的训练方法包括：获取包含所述第一对象的第二视频；在所述第二视频中提取第二音频帧和与所述第一音频帧对应的第二视频帧，在所述第二视频帧中提取去除所述目标局部区域的第二剩余人脸图片；基于所述第二音频帧和预设平均人脸模型生成所述第一对象的所述目标局部区域内
人脸关键点的第二关键点坐标；在所述预设平均人脸模型中提取与所述第二音频帧对应的第二全连接层参数，并基于所述第二全连接层参数确定预设数字人生成模型的第三模型参数，所述第三模型参数...

【专利技术属性】
技术研发人员：王鑫宇，刘炫鹏，杨国基，常向月，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人