人脸驱动及模型获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38005536 阅读：14 留言：0更新日期：2023-06-30 10:21

本公开提供了人脸驱动及模型获取方法、装置、电子设备及存储介质，涉及深度学习、虚拟数字人以及计算机视觉等人工智能领域。所述人脸驱动方法可包括：获取待驱动的目标三维人脸模型对应的目标音频数据，并对目标音频数据进行音频特征提取；利用预先训练得到的条件变分自编码器模型，确定出目标三维人脸模型对应的目标表情的表情隐向量；根据获取到的音频特征以及表情隐向量，利用条件变分自编码器模型，确定出人脸驱动参数；利用人脸驱动参数对目标三维人脸模型进行人脸驱动。应用本公开所述方案，可实现对于人脸表情的有效控制等。可实现对于人脸表情的有效控制等。可实现对于人脸表情的有效控制等。

全部详细技术资料下载

【技术实现步骤摘要】
人脸驱动及模型获取方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，特别涉及深度学习、虚拟数字人以及计算机视觉等领域的人脸驱动及模型获取方法、装置、电子设备及存储介质。

技术介绍

[0002]虚拟数字人应用的一项核心技术就是利用音频数据来对三维人脸模型进行人脸驱动，即音频到动画(A2A，Audio
‑
to
‑
Animation)技术。在实际应用中，音频数据与人脸表情的相关性比较弱，同一段音频数据可以对应完全不同的人脸表情。而目前的驱动方式中对于人脸表情完全不可控，即无法实现有效的人脸表情驱动。

技术实现思路

[0003]本公开提供了人脸驱动及模型获取方法、装置、电子设备及存储介质。
[0004]一种人脸驱动方法，包括：
[0005]获取待驱动的目标三维人脸模型对应的目标音频数据，并对所述目标音频数据进行音频特征提取；
[0006]利用预先训练得到的条件变分自编码器模型，确定出所述目标三维人脸模型对应的目标表情的表情隐向量；/>[0007]根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种人脸驱动方法，包括：获取待驱动的目标三维人脸模型对应的目标音频数据，并对所述目标音频数据进行音频特征提取；利用预先训练得到的条件变分自编码器模型，确定出所述目标三维人脸模型对应的目标表情的表情隐向量；根据所述音频特征以及所述表情隐向量，利用所述条件变分自编码器模型，确定出人脸驱动参数；利用所述人脸驱动参数对所述目标三维人脸模型进行人脸驱动。2.根据权利要求1所述的方法，其中，所述对所述目标音频数据进行音频特征提取包括：利用预先训练得到的特征提取模型对所述目标音频数据进行音频特征提取。3.根据权利要求1或2所述的方法，其中，所述条件变分自编码器模型中包括：条件编码器以及条件解码器；所述利用预先训练得到的条件变分自编码器模型，确定出所述目标三维人脸模型对应的目标表情的表情隐向量包括：利用所述条件编码器，确定出所述表情隐向量；所述利用所述条件变分自编码器模型，确定出人脸驱动参数包括：利用所述条件解码器，确定出所述人脸驱动参数。4.根据权利要求3所述的方法，其中，所述利用所述条件编码器，确定出所述表情隐向量包括：获取任一音频数据及对应的具有所述目标表情的三维人脸模型，所述三维人脸模型为基于采集到的视频重建出的三维人脸模型，所述视频为真实人物按照所述目标表情表达所述音频数据中的内容时采集到的视频；将所述音频数据及所述三维人脸模型作为所述条件编码器的输入，得到所述表情隐向量。5.根据权利要求1或2所述的方法，其中，所述利用所述人脸驱动参数对所述目标三维人脸模型进行人脸驱动包括：将所述人脸驱动参数输入到所述目标三维人脸模型中，实现所述人脸驱动。6.一种条件变分自编码器模型获取方法，包括：构建训练样本，所述训练样本中包括：音频数据以及对应的具有指定表情的三维人脸模型，所述指定表情包括M种不同的表情类型，M为大于一的正整数；利用所述训练样本训练得到所述条件变分自编码器模型，所述条件变分自编码器模型用于确定出待驱动的目标三维人脸模型对应的目标表情的表情隐向量，以及根据所述表情隐向量和音频特征确定出人脸驱动参数，所述音频特征为从所述目标三维人脸模型对应的目标音频数据中提取出的特征，所述人脸驱动参数用于对所述目标三维人脸模型进行人脸驱动，所述目标表情为所述M种不同的表情类型中的至少一种。7.根据权利要求6所述的方法，其中，所述条件变分自编码器模型中包括：条件编码器以及条件解码器，所述条件编码器用于确定出所述表情隐向量，所述条件解码器用于确定出所述人脸驱动参数。8.根据权利要求6或7所述的方法，其中，
所述训练样本中的三维人脸模型为基于采集到的视频重建出的三维人脸模型，所述视频为真实人物按照所述指定表情表达所述音频数据中的内容时采集到的视频。9.一种人脸驱动装置，包括：特征提取模块、向量获取模块、参数生成模块以及人脸驱动模块；所述特征提取模块，用于获取待驱动的目标三维人脸模型对应的目标音频数据，并对所述目标音频数据进行音频特征提取；所述向量获取模块，用于利用预先训练得到的条件变分自编码器模型，确定出所述目标三维人脸模型对应的目标...

【专利技术属性】
技术研发人员：范锡睿，赵亚飞，张世昌，杜宗财，陈毅，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人