语音驱动唇形生成方法技术

技术编号：39597265 阅读：30 留言：0更新日期：2023-12-03 19:56

本申请提供一种语音驱动唇形生成方法

全部详细技术资料下载

【技术实现步骤摘要】
语音驱动唇形生成方法、装置及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种语音驱动唇形生成方法
、
装置及存储介质
。

技术介绍

[0002]语音驱动唇形生成是一种先进的人工智能技术，用于通过语音输入生成高质量的唇形图像
。
通过语音驱动唇形生成技术，可以实现高度逼真的唇形动画，使虚拟角色或人工智能助理的口型与语音输入完美匹配
。
这种技术在电影
、
动画
、
虚拟现实
、
游戏
、
语音合成和人机交互等领域具有广泛的应用潜力
。
[0003]数字人生动真实的说话能力是展现数字人表现力的关键要素，其中的核心问题是保持唇形和语音内容的同步性
。
现有的一些语音驱动唇形生成方法，使用深度神经网络来预测与音频输入相对应的嘴唇运动，但提取的唇部表观先验信息不够准确，导致唇形同步不准确
。

技术实现思路

[0004]本申请实施例提供一种语音驱动唇形生成方法
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种语音驱动唇形生成方法，其特征在于，包括：将多帧人脸图像输入至纹理编码器中进行纹理特征提取，得到每一人脸图像的初始纹理特征；将运动信息从所述初始纹理特征中解耦，得到所述人脸图像的目标纹理特征；基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形
。2.
根据权利要求1所述的语音驱动唇形生成方法，其特征在于，所述将运动信息从所述初始纹理特征中解耦，得到所述人脸图像的目标纹理特征，包括：基于对比约束将运动信息从所述初始纹理特征中解耦；所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性；计算所有人脸图像的解耦后的初始纹理特征的平均值，得到所述人脸图像的目标纹理特征
。3.
根据权利要求1所述的语音驱动唇形生成方法，其特征在于，所述方法还包括：将多帧人脸图像输入至运动编码器中进行运动特征提取，得到每一人脸图像的初始运动特征；将纹理信息从所述初始运动特征中解耦，得到所述人脸图像的目标运动特征；判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸，并根据判断结果验证所述人脸图像的目标纹理特征的有效性
。4.
根据权利要求3所述的语音驱动唇形生成方法，其特征在于，所述将纹理信息从所述初始运动特征中解耦，得到所述人脸图像的目标运动特征，包括：基于正交约束将纹理信息从所述初始运动特征中解耦；所述正交约束用于正交化每一人脸图像的纹理特征和运动特征；确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征
。5.
根据权利要求1所述的语音驱动唇形生成方法，其特征在于，所述基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形，包括：获取...

【专利技术属性】
技术研发人员：刘智威，曾豪，王金桥，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人