一种表情动画生成方法、系统、电子设备及存储介质技术方案

技术编号：37242595 阅读：7 留言：0更新日期：2023-04-20 23:23

本发明专利技术涉及一种表情动画生成方法，包括：构建表情动画生成模型，表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层；构建训练数据集；使用训练数据集对表情动画生成模型进行训练；获取相对应的文本数据和语音数据，基于文本数据和语音数据获取文本特征和语音特征，将文本特征和语音特征输入训练好的表情动画生成模型，得到3D表情动画数据；将3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。与现有技术相比，本发明专利技术只需要使用语音数据和文本数据就可以完成整个人脸的表情动画生成，硬件成本和计算复杂度低，而且，通过将3D表情动画数据重定向到目标数字人脸，输出更为灵活。输出更为灵活。输出更为灵活。

全部详细技术资料下载

【技术实现步骤摘要】
一种表情动画生成方法、系统、电子设备及存储介质

[0001]本专利技术涉及表情生成
，尤其是涉及一种多模态驱动的表情动画生成方法、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展以及“元宇宙”概念的提出，虚拟数字人的表情生成技术成为了热门研究课题，它在动画影视创作，游戏、虚拟现实以及人机交互中有着非常广泛的应用。根据输入的不同，可以将表情生成分为基于视频驱动的和基于语音/文本驱动的。其中视频驱动的表情动画生成技术发展较为成熟，而语音/文本驱动的人脸动画生成技术，虽然早在上世纪70年代就被提出，但直到随着近年人工智能的发展，才得到快速的发展。目前，如何生成更生动自然的人脸动画、非机械化的表情是重点研究目标。
[0003]常用的方案或是仅输入语音，或是仅输入文本。输入语音的方法可以分为两类，一类是将原始的语音特征作为输入，这种方式依赖大量的训练数据，并且得到的结果是个性化的，泛化能力较弱，需针对特定人训练特定的网络参数；另一类是使用一个经大规模语料训练的声学模型进行语音的预处理，这丢失了大量的语调、情感特征。输入文本的方法，一种一般的做法是构建文本和表情的一一映射表，从而得到对应人脸动画，这种方式生成的动画过于呆板，丢失了情感信息，另一种是使用语音合成技术生成语音后进行表情生成，这将面临和仅输入语音相同的问题。
[0004]现有技术中，为提高动画的真实性、生动性，有研究人员考虑多模态输入的方案，如申请号为CN202110718414.8的中国专利技术专利申请“基于多模态驱动的...

【技术保护点】

【技术特征摘要】
1.一种表情动画生成方法，其特征在于，包括：构建表情动画生成模型，所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，所述表情动画生成模型的输入为文本特征和语音特征，所述表情动画生成模型的输出为3D表情动画数据；构建训练数据集；使用所述训练数据集对所述表情动画生成模型进行训练，得到训练好的表情动画生成模型；获取相对应的文本数据和语音数据，基于所述文本数据和语音数据获取文本特征和语音特征，将所述文本特征和语音特征输入所述训练好的表情动画生成模型，得到3D表情动画数据；将所述3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。2.根据权利要求1所述的一种表情动画生成方法，其特征在于，基于所述文本数据和语音数据获取文本特征和语音特征具体为：将所述文本数据与语音数据进行音素级的对齐，得到各个时段的语音对应的音素，将音素进行序列化后作为文本特征；提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。3.根据权利要求1所述的一种表情动画生成方法，其特征在于，所述文本特征编码器的输入为文本特征，所述语音特征编码器的输入为语音特征和文本特征编码器的输出，所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接，所述线性层的输入为表情解码器的输出，所述线性层的输出为3D表情动画数据。4.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块；所述第一嵌入层的输入为文本特征，所述第一嵌入层的输出为添加了位置编码的文本特征向量；所述文本特征编码块包括多头注意力层和第一全连接层，所述多头注意力层的输入为添加了位置编码的文本特征向量，所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层，所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量，各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。5.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块；所述第二嵌入层的输入为语音特征，所述第二嵌入层的输出为添加了位置编码的语音特征向量；所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层，所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出，所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层，所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量，各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。6.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述表情解码器包括第三嵌入层和多个堆叠的解码块；所述第三嵌入层的输入为表情解码器上一时刻的输出，所述第三嵌入层的输出为第一特征向量；所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层，所述线性偏差多头注意力层的输入为第一特征向量，所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层，所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接，所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处
理后送入第三全连接层，所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量，各个解码块的表情输出向量序列化后作为表情解码器的输出。7.根据权利要求1所...

【专利技术属性】
技术研发人员：刘逸颖，李融，李萌坚，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人