当前位置: 首页 > 专利查询>之江实验室专利>正文

一种表情动画生成方法、系统、电子设备及存储介质技术方案

技术编号:37242595 阅读:7 留言:0更新日期:2023-04-20 23:23
本发明专利技术涉及一种表情动画生成方法,包括:构建表情动画生成模型,表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层;构建训练数据集;使用训练数据集对表情动画生成模型进行训练;获取相对应的文本数据和语音数据,基于文本数据和语音数据获取文本特征和语音特征,将文本特征和语音特征输入训练好的表情动画生成模型,得到3D表情动画数据;将3D表情动画数据重定向到目标数字人脸上,在目标数字人脸上生成表情动画。与现有技术相比,本发明专利技术只需要使用语音数据和文本数据就可以完成整个人脸的表情动画生成,硬件成本和计算复杂度低,而且,通过将3D表情动画数据重定向到目标数字人脸,输出更为灵活。输出更为灵活。输出更为灵活。

【技术实现步骤摘要】
一种表情动画生成方法、系统、电子设备及存储介质


[0001]本专利技术涉及表情生成
,尤其是涉及一种多模态驱动的表情动画生成方法、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展以及“元宇宙”概念的提出,虚拟数字人的表情生成技术成为了热门研究课题,它在动画影视创作,游戏、虚拟现实以及人机交互中有着非常广泛的应用。根据输入的不同,可以将表情生成分为基于视频驱动的和基于语音/文本驱动的。其中视频驱动的表情动画生成技术发展较为成熟,而语音/文本驱动的人脸动画生成技术,虽然早在上世纪70年代就被提出,但直到随着近年人工智能的发展,才得到快速的发展。目前,如何生成更生动自然的人脸动画、非机械化的表情是重点研究目标。
[0003]常用的方案或是仅输入语音,或是仅输入文本。输入语音的方法可以分为两类,一类是将原始的语音特征作为输入,这种方式依赖大量的训练数据,并且得到的结果是个性化的,泛化能力较弱,需针对特定人训练特定的网络参数;另一类是使用一个经大规模语料训练的声学模型进行语音的预处理,这丢失了大量的语调、情感特征。输入文本的方法,一种一般的做法是构建文本和表情的一一映射表,从而得到对应人脸动画,这种方式生成的动画过于呆板,丢失了情感信息,另一种是使用语音合成技术生成语音后进行表情生成,这将面临和仅输入语音相同的问题。
[0004]现有技术中,为提高动画的真实性、生动性,有研究人员考虑多模态输入的方案,如申请号为CN202110718414.8的中国专利技术专利申请“基于多模态驱动的情感可控面部动画生成方法”和申请号为CN202210744504.9的中国专利技术专利申请“基于多模态驱动的情感可控面部动画生成方法”,通过输入额外的视频信息来提高生成面部动画的情绪表达,论文《Audio

and Gaze

driven Facial Animation of Codec Avatars》通过加入眼球跟踪信息来增加上半面部表情的感染力。但是这些方法都需要额外的视觉传感器,增加了硬件成本,且图像的处理需要耗费较大的计算资源。申请号为CN202110021844.4的中国专利技术专利申请“虚假人脸动画合成方法”中,通过语音信息中的多帧音频特征和文本信息中的多帧韵律特征以及编码器

解码器网络生成人脸草图,一方面,该申请使用了Merlin等语音合成框架提供的韵律特征,但是,语音才能够最直观的反应韵律特征,文本合成的韵律特征存在和原始语音表达不符的情况,反而有可能起到相反的作用,另一方面,其解码器只输出了下半面部的2D关键点运动,上半面部的特征需使用原始视频得到,计算复杂度高,且最终的输出只能对应于特定的输入视频。
[0005]因此,有必要提供一种硬件成本低、计算复杂度低且输出灵活的表情生成方案。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种表情动画生成方案。
[0007]本专利技术的目的可以通过以下技术方案来实现:
[0008]本专利技术实施例提供一种表情动画生成方法,包括:构建表情动画生成模型,所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层,所述表情动画生成模型的输入为文本特征和语音特征,所述表情动画生成模型的输出为3D表情动画数据;构建训练数据集;使用所述训练数据集对所述表情动画生成模型进行训练,得到训练好的表情动画生成模型;获取相对应的文本数据和语音数据,基于所述文本数据和语音数据获取文本特征和语音特征,将所述文本特征和语音特征输入所述训练好的表情动画生成模型,得到3D表情动画数据;将所述3D表情动画数据重定向到目标数字人脸上,在目标数字人脸上生成表情动画。
[0009]可选的,基于所述文本数据和语音数据获取文本特征和语音特征具体为:将所述文本数据与语音数据进行音素级的对齐,得到各个时段的语音对应的音素,将音素进行序列化后作为文本特征;提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。
[0010]可选的,所述文本特征编码器的输入为文本特征,所述语音特征编码器的输入为语音特征和文本特征编码器的输出,所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接,所述线性层的输入为表情解码器的输出,所述线性层的输出为3D表情动画数据。
[0011]可选的,所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块;所述第一嵌入层的输入为文本特征,所述第一嵌入层的输出为添加了位置编码的文本特征向量;所述文本特征编码块包括多头注意力层和第一全连接层,所述多头注意力层的输入为添加了位置编码的文本特征向量,所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层,所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量,各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。
[0012]可选的,所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块;所述第二嵌入层的输入为语音特征,所述第二嵌入层的输出为添加了位置编码的语音特征向量;所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层,所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出,所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层,所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量,各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。
[0013]可选的,所述表情解码器包括第三嵌入层和多个堆叠的解码块;所述第三嵌入层的输入为表情解码器上一时刻的输出,所述第三嵌入层的输出为第一特征向量;所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层,所述线性偏差多头注意力层的输入为第一特征向量,所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层,所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接,所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第三全连接层,所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量,各个解码块的表情输出向量序列化后作为表情解码器的输出。
[0014]可选的,使用所述训练数据集对所述表情动画生成模型进行训练时,以损失函数
收敛为目标进行训练,所述损失函数为顶点距离损失、时间连续性损失和网格形变损失的加权求和值。
[0015]可选的,确定真实3D表情动画数据对应的真实人脸网格,确定预测3D表情动画数据对应的预测人脸网格,所述顶点距离损失的值为:真实人脸网格的顶点与预测人脸网格的顶点之间的均方误差。
[0016]可选的,确定真实3D表情动画数据对应的真实人脸网格,确定预测3D表情动画数据对应的预测人脸网格,所述时间连续性损失的值为:真实人脸网格相邻帧的顶点位移与预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表情动画生成方法,其特征在于,包括:构建表情动画生成模型,所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层,所述表情动画生成模型的输入为文本特征和语音特征,所述表情动画生成模型的输出为3D表情动画数据;构建训练数据集;使用所述训练数据集对所述表情动画生成模型进行训练,得到训练好的表情动画生成模型;获取相对应的文本数据和语音数据,基于所述文本数据和语音数据获取文本特征和语音特征,将所述文本特征和语音特征输入所述训练好的表情动画生成模型,得到3D表情动画数据;将所述3D表情动画数据重定向到目标数字人脸上,在目标数字人脸上生成表情动画。2.根据权利要求1所述的一种表情动画生成方法,其特征在于,基于所述文本数据和语音数据获取文本特征和语音特征具体为:将所述文本数据与语音数据进行音素级的对齐,得到各个时段的语音对应的音素,将音素进行序列化后作为文本特征;提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。3.根据权利要求1所述的一种表情动画生成方法,其特征在于,所述文本特征编码器的输入为文本特征,所述语音特征编码器的输入为语音特征和文本特征编码器的输出,所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接,所述线性层的输入为表情解码器的输出,所述线性层的输出为3D表情动画数据。4.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块;所述第一嵌入层的输入为文本特征,所述第一嵌入层的输出为添加了位置编码的文本特征向量;所述文本特征编码块包括多头注意力层和第一全连接层,所述多头注意力层的输入为添加了位置编码的文本特征向量,所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层,所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量,各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。5.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块;所述第二嵌入层的输入为语音特征,所述第二嵌入层的输出为添加了位置编码的语音特征向量;所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层,所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出,所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层,所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量,各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。6.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述表情解码器包括第三嵌入层和多个堆叠的解码块;所述第三嵌入层的输入为表情解码器上一时刻的输出,所述第三嵌入层的输出为第一特征向量;所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层,所述线性偏差多头注意力层的输入为第一特征向量,所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层,所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接,所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处
理后送入第三全连接层,所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量,各个解码块的表情输出向量序列化后作为表情解码器的输出。7.根据权利要求1所...

【专利技术属性】
技术研发人员:刘逸颖李融李萌坚
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1