【技术实现步骤摘要】
一种表情动画生成方法、系统、电子设备及存储介质
[0001]本专利技术涉及表情生成
,尤其是涉及一种多模态驱动的表情动画生成方法、系统、电子设备及存储介质。
技术介绍
[0002]随着人工智能技术的发展以及“元宇宙”概念的提出,虚拟数字人的表情生成技术成为了热门研究课题,它在动画影视创作,游戏、虚拟现实以及人机交互中有着非常广泛的应用。根据输入的不同,可以将表情生成分为基于视频驱动的和基于语音/文本驱动的。其中视频驱动的表情动画生成技术发展较为成熟,而语音/文本驱动的人脸动画生成技术,虽然早在上世纪70年代就被提出,但直到随着近年人工智能的发展,才得到快速的发展。目前,如何生成更生动自然的人脸动画、非机械化的表情是重点研究目标。
[0003]常用的方案或是仅输入语音,或是仅输入文本。输入语音的方法可以分为两类,一类是将原始的语音特征作为输入,这种方式依赖大量的训练数据,并且得到的结果是个性化的,泛化能力较弱,需针对特定人训练特定的网络参数;另一类是使用一个经大规模语料训练的声学模型进行语音的预处理,这丢失了大量 ...
【技术保护点】
【技术特征摘要】
1.一种表情动画生成方法,其特征在于,包括:构建表情动画生成模型,所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层,所述表情动画生成模型的输入为文本特征和语音特征,所述表情动画生成模型的输出为3D表情动画数据;构建训练数据集;使用所述训练数据集对所述表情动画生成模型进行训练,得到训练好的表情动画生成模型;获取相对应的文本数据和语音数据,基于所述文本数据和语音数据获取文本特征和语音特征,将所述文本特征和语音特征输入所述训练好的表情动画生成模型,得到3D表情动画数据;将所述3D表情动画数据重定向到目标数字人脸上,在目标数字人脸上生成表情动画。2.根据权利要求1所述的一种表情动画生成方法,其特征在于,基于所述文本数据和语音数据获取文本特征和语音特征具体为:将所述文本数据与语音数据进行音素级的对齐,得到各个时段的语音对应的音素,将音素进行序列化后作为文本特征;提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。3.根据权利要求1所述的一种表情动画生成方法,其特征在于,所述文本特征编码器的输入为文本特征,所述语音特征编码器的输入为语音特征和文本特征编码器的输出,所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接,所述线性层的输入为表情解码器的输出,所述线性层的输出为3D表情动画数据。4.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块;所述第一嵌入层的输入为文本特征,所述第一嵌入层的输出为添加了位置编码的文本特征向量;所述文本特征编码块包括多头注意力层和第一全连接层,所述多头注意力层的输入为添加了位置编码的文本特征向量,所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层,所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量,各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。5.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块;所述第二嵌入层的输入为语音特征,所述第二嵌入层的输出为添加了位置编码的语音特征向量;所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层,所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出,所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层,所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量,各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。6.根据权利要求3所述的一种表情动画生成方法,其特征在于,所述表情解码器包括第三嵌入层和多个堆叠的解码块;所述第三嵌入层的输入为表情解码器上一时刻的输出,所述第三嵌入层的输出为第一特征向量;所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层,所述线性偏差多头注意力层的输入为第一特征向量,所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层,所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接,所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处
理后送入第三全连接层,所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量,各个解码块的表情输出向量序列化后作为表情解码器的输出。7.根据权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。