当前位置: 首页 > 专利查询>湖南大学专利>正文

基于音频特征分离情感并驱动人脸动画合成方法及系统技术方案

技术编号:38161886 阅读:12 留言:0更新日期:2023-07-13 09:35
本发明专利技术涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统,包括步骤:S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频结合参考面部图像提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成脸部图像。本发明专利技术根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制,更细粒度地合成人脸动画视频。更细粒度地合成人脸动画视频。更细粒度地合成人脸动画视频。

【技术实现步骤摘要】
基于音频特征分离情感并驱动人脸动画合成方法及系统


[0001]本专利技术涉及图像处理以及图像合成的
,特别是涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统。

技术介绍

[0002]音频驱动的人脸动画合成问题是计算机视觉领域的一个热门问题,这个问题可以被描述为,给定一副人脸参考图像和一段人的谈话音频,来生成这段音频所对应参考图像中人脸在谈话时的动画。
[0003]近年来,出现多种音频驱动的人脸动画合成的方法,这些方法主要利用神经网络对音频中的特征进行提取,然后将音频特征转换为某种中间表示,再将中间表示与参考图像以某种方式进行叠加,通过生成网络生成音频所对应的视频,生成的视频在真实性和准确性上取得了较好的提升。然而,在实际的谈话过程中,由于情感的影响,尽管谈论的内容本身相同,但音频中的音调等特征并不完全相同,因此,如何从谈话音频中将音频的情感部分进行分离,并根据分离的情感部分对生成视频的脸部表情进行控制,来合成更加真实准确的人脸动画视频是业内亟待解决的问题。

技术实现思路

[0004]为解决上述技术问题中的至少之一,本专利技术提出一种基于音频特征分离情感并驱动人脸动画合成方法。
[0005]本专利技术的目的通过以下技术方案实现:
[0006]本专利技术提供了一种基于音频特征分离情感并驱动人脸动画合成方法,包括如下步骤:
[0007]S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;
[0008]S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;
[0009]S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;
[0010]S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;
[0011]S5、根据预测图像的标志点坐标构造标志点图;
[0012]S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。
[0013]作为进一步的改进,所述步骤S2中,从语音音频中提取音频特征,首先对语音音频进行预处理,并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。
[0014]作为进一步的改进,所述步骤S2中,从参考面部图像中提取面部标志点,包括如下步骤:
[0015]S21、从参考面部图像中提取所有三维面部标志点坐标;
[0016]S22、对所有三维面部标志点坐标计算坐标平均值;
[0017]S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐;
[0018]S24、通过正交投影将三维面部标志点投影到图像空间上。
[0019]作为进一步的改进,所述步骤S3中,从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤:
[0020]S31、使用神经网络对音频特征进行编码;
[0021]S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息;
[0022]S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入;
[0023]S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息;
[0024]S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。
[0025]作为进一步的改进,所述步骤S34中,通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤:
[0026]S341、从参考面部图像中分别选取第一视频片段和第二视频片段,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段;
[0027]S342、将三个视频片段在对比学习模型中进行对比学习,根据第一视频片段的情感特征嵌入和第二视频片段的情感特征嵌入分离出包含情感特征嵌入的情感信息;
[0028]S343、由表情预测网络预测三个视频片段中表情的softmax概率;
[0029]S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息。
[0030]作为进一步的改进,所述步骤S342中,对比学习的情感损失公式如下:
[0031][0032]其中,表示情感损失函数,λ
r,s
是预测的第一视频片段和第二视频片段表情的softmax概率之间的余弦相似度,d
r,s
表示第一个视频片段的情感特征嵌入和第二个视频片段的情感特征嵌入之间平均绝对误差,λ
r,p
预测的第一视频片段和第三视频片段表情的softmax概率之间的余弦相似度,d
r,p
是第一个视频片段的情感特征嵌入和第三个视频片段的情感特征嵌入之间平均绝对误差。
[0033]作为进一步的改进,所述步骤S343中,根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息,对比学习的身份损失公式如下:
[0034][0035]其中,表示身份损失函数,表示第一视频片段的身份特征嵌入,表示第三视频片段的身份特征嵌入。
[0036]作为进一步的改进,所述步骤S4中,通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标,具体包括如下步骤:
[0037]S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量;
[0038]S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量;
[0039]S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点相加,得到预测图像的标志点坐标。
[0040]作为进一步的改进,所述步骤S6中,利用生成网络生成合成的脸部图像后,对比合成脸部图像和真实脸部图像之间像素值的差异,图像损失函数如下:
[0041][0042]其中,表示图像损失函数,Is表示真实脸部图像,It表示合成脸部图像。
[0043]本专利技术提供的基于音频特征分离情感并驱动人脸动画合成方法,包括步骤:S 1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。本专利技术显式地将语音音频中音频特征的讲话内容、情感部分、讲话者的身分特点进行分离,根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,包括如下步骤:S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。2.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S2中,从语音音频中提取音频特征,首先对语音音频进行预处理,并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。3.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S2中,从参考面部图像中提取面部标志点,包括如下步骤:S21、从参考面部图像中提取所有三维面部标志点坐标;S22、对所有三维面部标志点坐标计算坐标平均值;S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐;S24、通过正交投影将三维面部标志点投影到图像空间上。4.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S3中,从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤:S31、使用神经网络对音频特征进行编码;S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息;S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入;S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息;S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。5.根据权利要求4所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S34中,通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤:S341、从参考面部图像中分别选取第一视频片段和第二视频片段,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段;S342、将三个视频片段在对比学习模型中进行对比学习,根据第一视频片段的...

【专利技术属性】
技术研发人员:蔡敏捷任新
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1