目标视频的输出方法及装置、存储介质及电子装置制造方法及图纸

技术编号：32666982 阅读：27 留言：0更新日期：2022-03-17 11:19

本申请实施例提供了一种目标视频的输出方法及装置、存储介质及电子装置，所述方法包括：获取第一音频和包含目标人物的第一视频；提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型；通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。频对应。频对应。

全部详细技术资料下载

【技术实现步骤摘要】
目标视频的输出方法及装置、存储介质及电子装置

[0001]本申请涉及数据处理
，具体而言，涉及一种目标视频的输出方法及装置、存储介质及电子装置。

技术介绍

[0002]二维(two
‑
dimensional，简称为2D)虚拟人物的生成通常是指通过一个人或几个人的视频数据生成对应的2D虚拟人物，2D虚拟人物在形象上逼近真人，并且针对不同的从文本到语音(Text To Speech，简称为TTS)输入，能够达到与真人接近的口型。可以广泛应用在2D虚拟人物相关的任务上。
[0003]目前，相关技术中2D虚拟人物生成方案一般清晰度有限，并且在训练时收敛比较慢，针对不同的人种或者人物特征差别比较大的情况，例如，有无胡子等，模型的训练方式并不通用，需要根据人物特征不断修正训练方式，这也直接影响到最终生成的2D虚拟人物的口型效果。
[0004]针对相关技术中，2D虚拟人物生成方案的模型训练效率较低且清晰度较差的问题，相关技术中尚未提出有效的解决方案。

技术实现思路

[0005]本申请...

【技术保护点】

【技术特征摘要】
1.一种目标视频的输出方法，其特征在于，包括：获取第一音频和包含目标人物的第一视频，其中，所述第一音频为根据文本转换成的语音数据；提取所述第一音频的音频特征和所述第一视频中所述目标人物的人脸特征，其中，所述目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，所述神经网络模型为使用样本数据训练的生成对抗网络模型，所述样本数据包括样本视频数据，所述样本视频数据中包含多个人物对象，所述神经网络模型包括多个门卷积层和多个膨胀门卷积层；通过所述神经网络模型输出包含目标虚拟人物的目标视频，其中，所述目标虚拟人物与所述目标人物对应，所述目标虚拟人物的口型与所述第一音频对应。2.根据权利要求1所述的方法，其特征在于，所述提取所述第一视频中所述目标人物的人脸特征包括：检测所述第一视频中所述目标人物的人脸图像，并将所述人脸图像进行剪裁；在剪裁后的所述人脸图像的嘴部周边区域设置遮盖面罩，其中，所述嘴部周边区域包括眼睛以下以及下巴以上的区域；提取设置遮盖面罩后的所述人脸图像的局部特征，得到所述目标人物的人脸特征。3.根据权利要求1所述的方法，其特征在于，在将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型之前，所述方法还包括：对所述样本视频数据进行预处理，得到样本音频特征和样本人脸特征；使用所述样本音频特征和所述样本人脸特征训练所述神经网络模型。4.根据权利要求3所述的方法，其特征在于，所述对所述样本数据进行预处理包括：提取所述样本视频数据中的样本音频数据；提取所述样本音频数据的梅尔声学特征；过滤掉所述梅尔声学特征中的静音数据，得到过滤后的所述样本音频特征；根据设置好的滑动窗口提取所述样本视频数据的每一帧图像对应的所述样本音频特征。5.根据权利要求3所述的方法，其特征在于，所述对所述样本数据进行预处理包括：对所述样本视频数据的每一帧图像进行人脸检测；对检测到的人脸图像进行裁剪后，在所述人脸图像的嘴部周边区域设置遮盖面罩，其中，所述嘴部周边区域包括眼睛以下以及下巴以上的区域；对设置遮盖面罩后的所述人脸图像进行归一化处理，得到所述样本人脸特征。6.根据权利要求3所述的方法，其特征在于，所述使用所述样本音频特征和所述样...

【专利技术属性】
技术研发人员：司马华鹏，王建，汪圆，孙雨泽，
申请(专利权)人：南京硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人