基于自适应区域遮挡的说话人脸视频生成方法及系统技术方案

技术编号：39657807 阅读：6 留言：0更新日期：2023-12-09 11:26

本发明专利技术提供了一种基于自适应区域遮挡的说话人脸视频生成方法及系统，包括

全部详细技术资料下载

【技术实现步骤摘要】
基于自适应区域遮挡的说话人脸视频生成方法及系统

[0001]本专利技术涉及说话人脸视频生成
，更为具体地，涉及一种基于自适应区域遮挡的说话人脸视频生成方法及系统
。

技术介绍

[0002]随着深度学习的不断发展，视频创造生成的方式也得到了发展
。
在深度学习的帮助下，可轻松实现语音驱动说话人脸视频的生成
。
从一段音频和给定人物形象生成对应人物的讲话视频，使得说话人嘴形与音频内容对应，这就是说话人视频生成，它可以应用在数字虚拟人，游戏
/
动漫角色配音嘴形同步化，音唇同步的语音翻译等场景
。
早期的语音驱动说话人脸视频生成工作重点关注嘴部的运动，随着元宇宙和数字人概念的出现，生成的说话人脸视频中情感的重要性逐渐显现
。
现有的语音驱动说话人脸视频生成的方法大多从单一模态（音频
、
图片
、
视频或情感标签）中识别情感，有些研究虽然尝试利用多模态融合来识别情感，但都只停留在对几种情感的简单分类，在实际应用中缺乏灵活性，并且容易出现视觉和听觉的情感不同步的问题
。
[0003]语音驱动说话人脸视频生成应保留说话人的身份特征和姿势特征，现有的语音驱动人脸视频生成的流程中有的使用对真实说话人的参考帧图像进行遮挡的方式来得到身份特征的参考和姿势特征的参考，遮挡方法有的是对人脸图片下半部分遮挡
、
有的是对嘴部区域遮挡
、
有的是整张图片遮挡
。r/>但是，这些单一的遮挡方式使得参考信息的提取准确性不足
、
生成的视频中产生不自然的面部运动或者对情感的识别产生影响
。

技术实现思路

[0004]鉴于上述问题，本专利技术的目的是提供一种基于自适应区域遮挡的说话人脸视频生成方法及系统，通过多模态信息获得真实说话人的情感种类和情感强度，根据情感种类和情感强度，选择参考帧图像的面部相关标记点组成的网格区域进行遮挡，获取自适应的身份特征参考和姿势特征参考，提高了生成的说话人脸视频的情感准确度和面部运动自然度
。
[0005]本专利技术提供的一种基于自适应区域遮挡的说话人脸视频生成方法，包括以下步骤：
S1
：从真实说话人的多模态信息中分别识别并提取各模态的特征，将所述各模态的特征进行融合，得到融合特征；
S2
：将所述融合特征输入预训练的深度神经网络，得到所述真实说话人的情感类型和所述情感类型的情感强度；
S3
：根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡，以提取所述真实说话人的身份图像；
S4
：根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考；根据所述
面部图像的参考
、
所述情感类型
、
所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧
。
[0006]在所述步骤
S1
中，所述多模态信息包括语音
、
文本和视频，所述各模态的特征包括分别从所述语音
、
所述文本和所述视频中提取的语音特征
、
文本特征和视觉特征；将所述语音特征
、
所述视觉特征和所述文本特征采用特征级融合的方式进行特征融合
。
[0007]在所述步骤
S2
中，所述预训练的深度神经网络采用
MEAD
作为训练集，所述
MEAD
中包括中性
、
愤怒
、
蔑视
、
厌恶
、
恐惧
、
快乐
、
悲伤和惊讶八种情感类型，以及每种情感类型的三级情感强度，所述三级情感强度由小到大包括1级
、2
级和3级
。
[0008]在所述步骤
S3
中，根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡的方式包括：在所述帧图像中的面部设置预定数量个标记点，所有标记点分别组成覆盖所述面部的各区域的网格区域；将每种情感类型按其对应的情感强度分别与相关标记点组成的网格区域相关联，形成标记点对照表；根据所述步骤
S2
中得到的情感类型和情感强度，对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡
。
[0009]所述对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡包括：对所述相关联的网格区域添加黑框进行遮挡
。
[0010]在所述步骤
S4
中，采用身份编码器
、
情感编码器
、
语音编码器
、
噪声编码器以及视频解码器共同构建所述虚拟说话人的视频帧；根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考包括：采用所述身份编码器编码，将帧图像和身份图像相连的整体作为联合输入，输出所述身份信息和所述姿势信息统一的视觉嵌入，将所述视觉嵌入提供给所述视频解码器，作为所述面部图像的参考
。
[0011]在所述步骤
S4
中，根据所述面部图像的参考
、
所述情感类型
、
所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧包括：将所述情感类型输入所述情感编码器，输出情感嵌入，将所述情感嵌入提供给所述视频解码器，作为所述虚拟说话人的情感的参考；将所述真实说话人的语音输入所述语音编码器进行处理并输出语音嵌入，将所述语音嵌入提供给所述视频解码器，作为所述虚拟说话人的口型和嘴唇运动的参考；通过所述噪声编码器对所述真实说话人的帧图像逐帧生成服从标准高斯分布的噪声向量序列，采用单层
LSTM
对所述噪声向量序列进行处理，并输出噪声嵌入，然后将所述噪声嵌入提供给所述视频解码器，作为所述虚拟说话人的头部和眨眼运动的参考；所述视频解码器根据所述视觉嵌入
、
所述情感嵌入
、
所述语音嵌入
、
所述噪声嵌入和所述情感强度，构建所述虚拟说话人的视频帧
。
[0012]还包括步骤
S5
：将所述视频帧和所述帧图像均输入帧鉴别器，通过所述帧鉴别器对所述视频帧和所述帧图像进行图像的真假鉴别以及对所述视频帧的训练，使得虚假的所述视频帧与真实的所述帧图像接近；将所述视频帧构成的说话人脸视频和所述情感类型均输入情感鉴别器，通过所述情感鉴别器确定根据所述说话人脸视频识别出的不同的情感种类及每一个情感种类的概
率，并根本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，包括以下步骤：
S1
：从真实说话人的多模态信息中分别识别并提取各模态的特征，将所述各模态的特征进行融合，得到融合特征；
S2
：将所述融合特征输入预训练的深度神经网络，得到所述真实说话人的情感类型和所述情感类型的情感强度；
S3
：根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡，以提取所述真实说话人的身份图像；
S4
：根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考；根据所述面部图像的参考
、
所述情感类型
、
所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧
。2.
如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤
S1
中，所述多模态信息包括语音
、
文本和视频，所述各模态的特征包括分别从所述语音
、
所述文本和所述视频中提取的语音特征
、
文本特征和视觉特征；将所述语音特征
、
所述视觉特征和所述文本特征采用特征级融合的方式进行特征融合
。3.
如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤
S2
中，所述预训练的深度神经网络采用
MEAD
作为训练集，所述
MEAD
中包括中性
、
愤怒
、
蔑视
、
厌恶
、
恐惧
、
快乐
、
悲伤和惊讶八种情感类型，以及每种情感类型的三级情感强度，所述三级情感强度由小到大包括1级
、2
级和3级
。4.
如权利要求3所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤
S3
中，根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡的方式包括：在所述帧图像中的面部设置预定数量个标记点，所有标记点分别组成覆盖所述面部的各区域的网格区域；将每种情感类型按其对应的情感强度分别与相关标记点组成的网格区域相关联，形成标记点对照表；根据所述步骤
S2
中得到的情感类型和情感强度，对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡
。5.
如权利要求4所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，所述对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡包括：对所述相关联的网格区域添加黑框进行遮挡
。6.
如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤
S4
中，采用身份编码器
、
情感编码器
、
语音编码器
、
噪声编码器以及视频解码器共同构建所述虚拟说话人的视频帧；根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考包括：采用所述身份编码器编码，...

【专利技术属性】
技术研发人员：赵薇，杨淇涵，郭红岩，柴剑平，
申请(专利权)人：中仪英斯泰克科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人