一种语音驱动面部动画方法技术

技术编号:39596556 阅读:8 留言:0更新日期:2023-12-03 19:54
本发明专利技术提供了一种语音驱动面部动画方法

【技术实现步骤摘要】
一种语音驱动面部动画方法、装置、设备及介质


[0001]本专利技术涉及音频处理与模式识别
,具体涉及一种语音驱动面部动画方法

装置

设备及介质


技术介绍

[0002]当前,基于深度跨模态交互感知的语音驱动面部动画方法是一种先进的技术,它结合了语音信号处理

面部表情识别和情感分析等领域的知识

在过去几年中,深度学习在计算机视觉和自然语言处理等任务上取得了巨大成功,这也为语音驱动表情预测提供了有力支持

人类在进行交流时,语音和面部表情往往是密不可分的

通过深度学习技术,可以训练模型来解析语音信号,并将其与对应的面部表情联系起来;这种技术的背后主要依赖于神经网络的强大能力

通过构建复杂的深度神经网络架构,可以从语音数据中提取特征,并预测出相应的面部表情

[0003]为了实现语音驱动的面部表情预测,研究人员需要大量的数据集,其中包括同时记录语音和面部表情的样本

这些数据被用于训练深度神经网络,使其能够理解语音信号与表情之间的关系

此外,还需要一些预处理步骤,例如声音分析和面部关键点检测,以帮助网络更好地理解输入数据

但是,现有的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题

[0004]有鉴于此,提出本申请

专利
技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种语音驱动面部动画方法

装置

设备及介质,使其在适用于不同场景

不同语言下的音频流的情况下,能够保证高精度实时混合形状动画系数推理结果
,
进而实时驱动角色面部动画,能够有效解决现有技术中的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题

[0006]本专利技术公开了一种语音驱动面部动画方法,包括:获取不同人物

不同音素口型

不同情绪状态

以及不同发音强度的人脸视频样本,并对所述人脸视频样本进行标注,生成人脸视频初始样本数据集,其中,所述人脸视频初始样本数据集由多个音频

面部图像样本对构成;分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理,生成人脸视频样本数据集,其中,所述音频数据预处理包括音频帧切分

音频帧随机偏移

音频帧随机噪声添加和音频帧自相关系数计算;所述面部图像数据预处理包括面部区域截取

面部图像尺寸伸缩;调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理,生成音频关联特征编码组,其中,所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型

深度残差神经网络模型和跨模态关联神经网络模型;
通过多个共享全连接层获取多个所述音频关联特征编码组,生成音频特征关联编码混合形状系数组,并对所述音频特征关联编码混合形状系数组进行后处理驱动,生成面部动画

[0007]本专利技术还公开了一种语音驱动面部动画装置,包括:样本获取单元,用于获取不同人物

不同音素口型

不同情绪状态

以及不同发音强度的人脸视频样本,并对所述人脸视频样本进行标注,生成人脸视频初始样本数据集,其中,所述人脸视频初始样本数据集由多个音频

面部图像样本对构成;数据预处理单元,用于分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理,生成人脸视频样本数据集,其中,所述音频数据预处理包括音频帧切分

音频帧随机偏移

音频帧随机噪声添加和音频帧自相关系数计算;所述面部图像数据预处理包括面部区域截取

面部图像尺寸伸缩;神经网络模型处理单元,用于调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理,生成音频关联特征编码组,其中,所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型

深度残差神经网络模型和跨模态关联神经网络模型;面部动画生成单元,用于通过多个共享全连接层获取多个所述音频关联特征编码组,生成音频特征关联编码混合形状系数组,并对所述音频特征关联编码混合形状系数组进行后处理驱动,生成面部动画

[0008]本专利技术还公开了一种语音驱动面部动画设备,包括处理器

存储器以及存储在存储器中且被配置由处理器执行的计算机程序,处理器执行计算机程序时实现如上任意一项的一种语音驱动面部动画方法

[0009]本专利技术还公开了一种可读存储介质,其特征在于,存储有计算机程序,计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项的一种语音驱动面部动画方法

[0010]综上所述,本实施例提供的一种语音驱动面部动画方法

装置

设备及介质,分别获取音频数据和面部图像数据并进行逐帧预处理操作;接下来提取音频帧内自相关系数作为音频特征以及通过
SEResNet50
网络获得面部图像发音特征
; 将音频特征输入到深度可分离共振峰神经网络获取音频共振峰发音特征,进一步分别通过全连接映射获取音频和面部对应的音素特征

跨模态差异特征

跨模态共享特征

情绪特征及音频强度特征组,最后通过跨模态交互感知和对齐方法获取音频和面部图像动画相关系数编码,并通过
ROC 曲线阈值限定和平滑操作对音频驱动面部动画相关系数编码进行后处理获得驱动面部动画的关键帧混合形状动画系数权重

本专利技术在适用于不同场景

不同语言下的音频流,能够保证高精度实时混合形状动画系数推理结果
,
进而实时驱动角色面部动画

从而解决现有技术中的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题

附图说明
[0011]图1是本专利技术实施例提供的一种语音驱动面部动画方法的流程示意图

[0012]图2是本专利技术实施例提供的一种语音驱动面部动画装置的模块示意图

具体实施方式
[0013]为使本专利技术实施方式的目的

技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚

完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音驱动面部动画方法
, 其特征在于,包括:获取不同人物

不同音素口型

不同情绪状态

以及不同发音强度的人脸视频样本,并对所述人脸视频样本进行标注,生成人脸视频初始样本数据集,其中,所述人脸视频初始样本数据集由多个音频

面部图像样本对构成;分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理,生成人脸视频样本数据集,其中,所述音频数据预处理包括音频帧切分

音频帧随机偏移

音频帧随机噪声添加和音频帧自相关系数计算;所述面部图像数据预处理包括面部区域截取

面部图像尺寸伸缩;调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理,生成音频关联特征编码组,其中,所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型

深度残差神经网络模型和跨模态关联神经网络模型;通过多个共享全连接层获取多个所述音频关联特征编码组,生成音频特征关联编码混合形状系数组,并对所述音频特征关联编码混合形状系数组进行后处理驱动,生成面部动画
。2.
根据权利要求1所述的一种语音驱动面部动画方法
, 其特征在于,对所述人脸视频初始样本数据集进行音频数据预处理,具体为:对所述人脸视频初始样本数据集的用户音频波形数据进行归一化处理,生成归一化音频波形数据;通过均值插值方法对所述归一化音频波形数据进行变换处理,生成标准音频波形数据;对所述标准音频波形数据进行分割处理,并添加双向偏移步长,生成音频帧序列;按照预设滑动窗口参数对所述音频帧序列进行处理,获取帧内窗口,并采用
Hanning
窗口生成算法将所述帧内窗口变换为平滑帧内窗口;根据公式计算所述平滑帧内窗口的音频自相关系数,其中,为平滑帧内窗口第个样本值,为平滑帧内窗口样本在延迟个样本后的第行自相关程度系数,,为平滑帧内窗口的样本数
。3.
根据权利要求2所述的一种语音驱动面部动画方法
, 其特征在于,对所述人脸视频初始样本数据集进行面部图像数据预处理,具体为:调用训练好的人脸检测神经网络模型通过线性插值方法对所述人脸视频初始样本数据集的面部区域进行尺寸伸缩处理;当所述人脸视频初始样本数据集的面部区域伸缩至预设标准尺寸时,覆盖原面部图像,生成面部图像样本;将同一帧的所述面部图像样本与所述音频自相关系数进行组合处理,构建生成人脸视频样本数据集
。4.
根据权利要求3所述的一种语音驱动面部动画方法
, 其特征在于,调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理,生成音频
关联特征编码组,具体为:所述深度可分离共振峰神经网络模型以所述音频自相关系数为样本对所述人脸视频样本数据集进行提取处理,提取音频共振峰降采样特征,其中,所述深度可分离共振峰神经网络模型由一个二层归一化卷积层网络和三层可分离共振峰神经网络模型构成;对于特定卷积核及其卷积对象,利用激活函数对预处理的音频自相关系数样本进行非线性处理,批量归一化卷积操作公式为:其中,为非线性激活函数,为批量归一化运算,为卷积算子操作,和分别为批归一化卷积操作中的权重参数与偏置项,为对输入的音频自相关系数样本进行批归一化卷积操作;可分离卷积层通过批归一化卷积操作提取的音频初始特征图,同时,通过1×1卷积操作提取特征图中的辅助信息特征图,并将所述音频初始特征图和所述辅助信息特征图通过拼接方式完成特征融合,生成最终特征图,公式为:其中,为1×1卷积操作,为按通道维度拼接操作,为非线性批归一化卷积操作处理操作;经过3层可分离卷积层,,获取面部特征图,公式为:;以音频共振峰降采样特征图作为输入发音分析网络,其中,发音分析网络采用与深度可分离共振峰神经网络相同的组合卷积方法提取音频发音特征,操作公式为:;将音频发音特征进行进一步的信息提取处理,以获取音频音素特征

音频跨模态差异特征

音频跨模态共享特征

音频情绪特征及音频强度特征,并通过展平操作,将原尺寸
256
×1×1变换为尺寸
256
,维持数值及排列顺序不变,生成音频编码特征组,其中,所述音频编码特征组包括音频音素特征

音频跨模态差异特征

音频跨模态共享特征

音频情绪特征

以及音频强度特征,变换公式为:以及音频强度特征,变换公式为:以及音频强度特征,变换公式为:以及音频强度特征,变换公式为:以及音频强度特征,变换公式为:其中,为音频音素特征,为音频跨模态差异特征,为音频跨模态共享特征,为音频情绪特征,为音频强度特征,表示为以为输入,为
输出向量维度的全连接操作
。5.
根据权利要求4所述的一种语音驱动面部动画方法
, 其特征在于,调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理,生成音频关联特征编码组,还包括:使用
SEResNet50
通用骨干网络对所述面部图像样本进行特征提取,获得面部图像发音特征,变换公式为:其中,函数表示以为输入的
SEResNet50
网络的输出特征;通过全连接层将面部图像发音特征分别变换为面部图像编码特征组,其中,所述面部图像编码特征组包括面部图像音素特征

面部图像跨模态差异特征

面部图像跨模态共享特征

面部图像情绪特征

以及面部图像强度特征,变换公式为:以及面部图像强度特征,变换公式为:以及面部图像强度特征,变换公式为:以及面部图像强度特征,变换公式为:以及面部图像强度特征,变换公式为:其中,为面部图像音素特征,为面部图像跨模态差异特征,为面部图...

【专利技术属性】
技术研发人员:柳欣胡众旺张力洋徐素文黄忠湖
申请(专利权)人:天度厦门科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1