数字人表情口型驱动方法、系统、电子设备和存储介质技术方案

技术编号:38012079 阅读:28 留言:0更新日期:2023-06-30 10:33
本公开的实施例提供一种数字人表情口型驱动方法、系统、电子设备和存储介质,方法包括:获取驱动语音;编码驱动语音,得到驱动语音的特征向量;输入驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;采样眨眼blendshape值,拼接口型blendshape值和眨眼blendshape值,得到最终blendshape值;输入最终blendshape值至Unity客户端,得到数字人表情口型。本公开结合了Transformer模型和Gaussdiffusion模型的优势,拟合成更精准的blendshape特征参数集;同时利用模型融合和眨眼后处理优化,使生成的数字人表情和口型更加逼真。逼真。逼真。

【技术实现步骤摘要】
数字人表情口型驱动方法、系统、电子设备和存储介质


[0001]本公开的实施例属于数字人
,具体涉及一种数字人表情口型驱动方法、系统、电子设备和存储介质。

技术介绍

[0002]随着数字人技术的发展,利用输入文本,利用语音合成可以得到对应的语音,对于给定的输入文本语音,通过设计的深度学习模型可以学习到数字人的表情口型的blendshape值,这个值和真人说话得到的blendshape越接近,数字人的表情越逼真,再把生成的blendshape返回给Unity客户端进行驱动,那么就可以生成数字人的表情口型。
[0003]对于给定输入文本或语音,生成高自然度的、唇音同步的人脸动画,Blendshape事一种动画制作方式,主要是人脸局部表情动作,再相邻的两个网格间做插值运算,从一个形状融合到另一个形状,根据blendshape参数,就可以生成数字人的人脸面部的动画。
[0004]专利技术专利《一种基于文本驱动的虚拟人微表情表达方法(公开号CN113838169A)》根据输入的文本合成语音,然后从合成语音中提取元音音素,利用Blend本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数字人表情口型驱动方法,其特征在于,包括:获取驱动语音;编码所述驱动语音,得到所述驱动语音的特征向量;输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;输入所述最终blendshape值至Unity客户端,得到数字人表情口型。2.根据权利要求1所述的方法,其特征在于,所述获取驱动语音,包括:获取驱动文本;采用语音合成处理所述驱动文本,得到驱动语音。3.根据权利要求1所述的方法,其特征在于,所述输入所述驱动语音的特征向量至预先训练的拟合模型,得到口型blendshape值,包括:分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。4.根据权利要求1所述的方法,其特征在于,所述拟合模型通过以下步骤训练得到:获取训练驱动语音;编码所述训练驱动语音,得到所述训练驱动语音的特征向量;提高Transformer模型的拟合度,得到拟合模型;根据所述训练驱动语音的特征向量训练所述拟合模型。5.一种数字人表情口型驱动系统,其特征在于,所述系统包括:获取模块,用于获取驱动语音;编码模块,用于编码所述驱动语音,得到所述驱动语音的特征向量;生成模块,用于输入所述驱动语音的特征向量至预先训练的拟合模型,...

【专利技术属性】
技术研发人员:沈来信邵岭郑小林
申请(专利权)人:特斯联科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1