数字人表情口型驱动方法、系统、电子设备和存储介质技术方案

技术编号：38012079 阅读：28 留言：0更新日期：2023-06-30 10:33

本公开的实施例提供一种数字人表情口型驱动方法、系统、电子设备和存储介质，方法包括：获取驱动语音；编码驱动语音，得到驱动语音的特征向量；输入驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；采样眨眼blendshape值，拼接口型blendshape值和眨眼blendshape值，得到最终blendshape值；输入最终blendshape值至Unity客户端，得到数字人表情口型。本公开结合了Transformer模型和Gaussdiffusion模型的优势，拟合成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，使生成的数字人表情和口型更加逼真。逼真。逼真。

全部详细技术资料下载

【技术实现步骤摘要】
数字人表情口型驱动方法、系统、电子设备和存储介质

[0001]本公开的实施例属于数字人
，具体涉及一种数字人表情口型驱动方法、系统、电子设备和存储介质。

技术介绍

[0002]随着数字人技术的发展，利用输入文本，利用语音合成可以得到对应的语音，对于给定的输入文本语音，通过设计的深度学习模型可以学习到数字人的表情口型的blendshape值，这个值和真人说话得到的blendshape越接近,数字人的表情越逼真，再把生成的blendshape返回给Unity客户端进行驱动，那么就可以生成数字人的表情口型。
[0003]对于给定输入文本或语音，生成高自然度的、唇音同步的人脸动画，Blendshape事一种动画制作方式，主要是人脸局部表情动作，再相邻的两个网格间做插值运算，从一个形状融合到另一个形状，根据blendshape参数，就可以生成数字人的人脸面部的动画。
[0004]专利技术专利《一种基于文本驱动的虚拟人微表情表达方法(公开号CN113838169A)》根据输入的文本合成语音，然后从合成语音中提取元音...

【技术保护点】

【技术特征摘要】
1.一种数字人表情口型驱动方法，其特征在于，包括：获取驱动语音；编码所述驱动语音，得到所述驱动语音的特征向量；输入所述驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；采样眨眼blendshape值，拼接所述口型blendshape值和所述眨眼blendshape值，得到最终blendshape值；输入所述最终blendshape值至Unity客户端，得到数字人表情口型。2.根据权利要求1所述的方法，其特征在于，所述获取驱动语音，包括：获取驱动文本；采用语音合成处理所述驱动文本，得到驱动语音。3.根据权利要求1所述的方法，其特征在于，所述输入所述驱动语音的特征向量至预先训练的拟合模型，得到口型blendshape值，包括：分别对每个所述驱动语音的特征向量进行打分，得到各所述驱动语音的特征向量的语音得分；采用模型融合处理各所述驱动语音的特征向量的语音得分，得到口型blendshape值。4.根据权利要求1所述的方法，其特征在于，所述拟合模型通过以下步骤训练得到：获取训练驱动语音；编码所述训练驱动语音，得到所述训练驱动语音的特征向量；提高Transformer模型的拟合度，得到拟合模型；根据所述训练驱动语音的特征向量训练所述拟合模型。5.一种数字人表情口型驱动系统，其特征在于，所述系统包括：获取模块，用于获取驱动语音；编码模块，用于编码所述驱动语音，得到所述驱动语音的特征向量；生成模块，用于输入所述驱动语音的特征向量至预先训练的拟合模型，...

【专利技术属性】
技术研发人员：沈来信，邵岭，郑小林，
申请(专利权)人：特斯联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人