基于音频特征分离情感并驱动人脸动画合成方法及系统技术方案

技术编号：38161886 阅读：12 留言：0更新日期：2023-07-13 09:35

本发明专利技术涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统，包括步骤：S1、给定需动画合成的一段语音音频和一段动态的参考面部图像；S2、从语音音频结合参考面部图像提取音频特征，从参考面部图像中提取面部标志点；S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离；S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标；S5、根据预测图像的标志点坐标构造标志点图；S6、将标志点图与参考面部图像中的图像叠加，利用生成网络生成脸部图像。本发明专利技术根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制，更细粒度地合成人脸动画视频。更细粒度地合成人脸动画视频。更细粒度地合成人脸动画视频。

全部详细技术资料下载

【技术实现步骤摘要】
基于音频特征分离情感并驱动人脸动画合成方法及系统

[0001]本专利技术涉及图像处理以及图像合成的
，特别是涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统。

技术介绍

[0002]音频驱动的人脸动画合成问题是计算机视觉领域的一个热门问题，这个问题可以被描述为，给定一副人脸参考图像和一段人的谈话音频，来生成这段音频所对应参考图像中人脸在谈话时的动画。
[0003]近年来，出现多种音频驱动的人脸动画合成的方法，这些方法主要利用神经网络对音频中的特征进行提取，然后将音频特征转换为某种中间表示，再将中间表示与参考图像以某种方式进行叠加，通过生成网络生成音频所对应的视频，生成的视频在真实性和准确性上取得了较好的提升。然而，在实际的谈话过程中，由于情感的影响，尽管谈论的内容本身相同，但音频中的音调等特征并不完全相同，因此，如何从谈话音频中将音频的情感部分进行分离，并根据分离的情感部分对生成视频的脸部表情进行控制，来合成更加真实准确的人脸动画视频是业内亟待解决的问题。

技术实现思路

[0004]为解决上述技术问题中的至少之一，本专利技术提出一种基于音频特征分离情感并驱动人脸动画合成方法。
[0005]本专利技术的目的通过以下技术方案实现：
[0006]本专利技术提供了一种基于音频特征分离情感并驱动人脸动画合成方法，包括如下步骤：
[0007]S1、给定需动画合成的一段语音音频和一段动态的参考面部图像；
[0008]S2、从语音音频中提取音频特征，从参考面部图像...

【技术保护点】

【技术特征摘要】
1.一种基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，包括如下步骤：S1、给定需动画合成的一段语音音频和一段动态的参考面部图像；S2、从语音音频中提取音频特征，从参考面部图像中提取面部标志点；S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离；S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标；S5、根据预测图像的标志点坐标构造标志点图；S6、将标志点图与参考面部图像中的图像叠加，利用生成网络生成合成后的脸部图像。2.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S2中，从语音音频中提取音频特征，首先对语音音频进行预处理，并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。3.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S2中，从参考面部图像中提取面部标志点，包括如下步骤：S21、从参考面部图像中提取所有三维面部标志点坐标；S22、对所有三维面部标志点坐标计算坐标平均值；S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐；S24、通过正交投影将三维面部标志点投影到图像空间上。4.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S3中，从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离，包括如下步骤：S31、使用神经网络对音频特征进行编码；S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息；S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入；S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络，以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息；S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。5.根据权利要求4所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S34中，通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息，包括如下步骤：S341、从参考面部图像中分别选取第一视频片段和第二视频片段，再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段；S342、将三个视频片段在对比学习模型中进行对比学习，根据第一视频片段的...

【专利技术属性】
技术研发人员：蔡敏捷，任新，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人