目标对象的动作驱动方法、装置、设备及存储介质制造方法及图纸

技术编号：30496920 阅读：7 留言：0更新日期：2021-10-27 22:27

本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质，涉及人工智能技术领域。方法包括：获取源语音和目标视频，所述目标视频中包括目标对象，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；对目标视频进行参数提取，得到目标参数；根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。通过本申请，能够使得最终得到的语音驱动目标对象动作的合成视频更加平滑和真实，提高了视频合成的视觉效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
目标对象的动作驱动方法、装置、设备及存储介质

[0001]本申请实施例涉及互联网
，涉及但不限于一种目标对象的动作驱动方法、装置、设备及存储介质。

技术介绍

[0002]近年来，在嘴型同步说话视频生成领域中，主流的方法都是基于深度学习来实现，相关技术中，一种实现方式是利用循环神经网络从语音特征中学习到嘴部关键点，然后基于嘴部关键点信息生成嘴部纹理，最后和目标视频帧结合得到嘴型同步说话视频帧。另一种实现方式是首先根据多个不同来源的声音片段学习一个通用、共享的“语音-表情”空间，然后根据所得的表情参数得到最终的嘴型同步说话视频帧。
[0003]但是，相关技术中的方法所生成的最终的嘴型同步说话视频帧均存在视频不平滑且不真实的问题。

技术实现思路

[0004]本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质，涉及人工智能
由于分别确定出源语音对应的源参数和目标视频对应的目标参数，并根据源参数和目标参数的结合参数对目标对象进行图像重构，进而得到合成视频，如此，由于基于结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种目标对象的动作驱动方法，所述方法包括：
[0007]获取源语音和目标视频，所述目标视频中包括目标对象；
[0008]对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；r/>[0009]对所述目标视频进行参数提取，得到目标参数；
[0010]根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；
[0011]通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。
[0012]本申请实施例提供一种目标对象的动作驱动装置，所述装置包括：
[0013]获取模块，用于获取源语音和目标视频，所述目标视频中包括目标对象；
[0014]人脸参数转换模块，用于对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；
[0015]参数提取模块，用于对所述目标视频进行参数提取，得到目标参数；
[0016]图像重构模块，用于根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；
[0017]生成模块，用于通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。
[0018]本申请实施例提供一种目标对象的动作驱动系统，至少包括：终端和服务器；
[0019]所述终端，用于向所述服务器发送所述目标对象的动作驱动请求，所述动作驱动请求中包括源语音和目标视频，所述目标视频中包括目标对象；
[0020]所述服务器，用于响应于所述动作驱动请求，实现上述的目标对象的动作驱动方法。
[0021]本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的目标对象的动作驱动方法。
[0022]本申请实施例提供一种目标对象的动作驱动设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的目标对象的动作驱动方法。
[0023]本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的目标对象的动作驱动方法。
[0024]本申请实施例具有以下有益效果：对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数，对目标视频进行参数提取得到目标参数，并根据源参数和目标参数的结合参数对目标对象进行图像重构，得到重构图像，最后，通过重构图像生成合成视频。如此，由于基于源参数和目标参数的结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实，提高了视频合成的视觉效果。
附图说明
[0025]图1是相关技术中的一种目标对象的动作驱动方法的系统框架图；
[0026]图2是本申请实施例提供的目标对象的动作驱动系统的一个可选的架构示意图；
[0027]图3是本申请实施例提供的服务器的结构示意图；
[0028]图4是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；
[0029]图5是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；
[0030]图6是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；
[0031]图7是本申请实施例提供的图像渲染模型的训练方法的实现流程示意图；
[0032]图8是本申请实施例提供的目标对象的动作驱动方法的系统框架图；
[0033]图9是本申请实施例提供的文本转语音模块的框架图；
[0034]图10是本申请实施例提供的语音转人脸参数网络的框架图；
[0035]图11是本申请实施例提供的Dlib算法效果图；
[0036]图12是本申请实施例提供的图像渲染模型的框架图；
[0037]图13是本申请实施例提供的基于条件的GAN框架图；
[0038]图14是相关技术中的方法合成的虚拟人同步说话视频；
[0039]图15是本申请实施例的目标对象的动作驱动方法所生成的合成视频。
具体实施方式
[0040]为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。
[0041]在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的
的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。
[0042]在解释本申请实施例之前，首先对相关技术中的目标对象的动作驱动方法进行说明：
[0043]目前，嘴型同步说话视频生成领域主要分为两大类：文本驱动和语音驱动。顾名思义，文本驱动是输入一段文本和一段目标人物的视频，通过从文本到语音(TTS，Text To Speech)技术将文本转化成语音，再从语音特征中学习人脸特征，最后输出一段目标人物阅读输入文本的视频；而语音驱动则本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种目标对象的动作驱动方法，其特征在于，所述方法包括：获取源语音和目标视频，所述目标视频中包括目标对象；对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；对所述目标视频进行参数提取，得到目标参数；根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。2.根据权利要求1所述的方法，其特征在于，所述获取源语音，包括：获取源文本，并对所述源文本进行文本解析，得到所述源文本的语言学特征；对所述语言学特征进行声学参数提取，得到所述源文本在时域上的声学参数；对所述声学参数进行转换处理，得到所述源文本在频域上的语音波形；将所述语音波形对应的语音，确定为所述源语音。3.根据权利要求1所述的方法，其特征在于，所述源参数包括：表情参数和嘴部关键点参数；所述对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数，包括：对所述源语音进行特征提取，得到所述源语音的语音特征向量；对所述语音特征向量依次进行卷积处理和全连接处理，得到所述源语音在对应时刻的所述表情参数和所述嘴部关键点参数。4.根据权利要求3所述的方法，其特征在于，所述对所述语音特征向量依次进行卷积处理和全连接处理，得到所述源语音在对应时刻的所述表情参数和所述嘴部关键点参数，包括：通过具有特定卷积核的至少两层第一卷积层对所述语音特征向量依次进行所述卷积处理，得到卷积处理向量；通过至少两层全连接层对所述卷积处理向量依次进行所述全连接处理，得到全连接处理向量；其中，所述全连接处理向量中包括所述表情参数对应的向量和所述嘴部关键点参数对应的向量，所述表情参数对应的向量与所述嘴部关键点参数对应的向量的维度之和，等于所述全连接处理向量的维度。5.根据权利要求1所述的方法，其特征在于，所述对所述目标视频进行参数提取，得到目标参数，包括：对所述目标视频的当前视频帧中的所述目标对象依次进行嘴部参数提取和人脸参数提取，对应得到目标嘴部关键点参数和目标人脸参数；将所述目标嘴部关键点参数和所述目标人脸参数确定为所述目标参数。6.根据权利要求1所述的方法，其特征在于，所述根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像，包括：对所述源参数和所述目标参数进行结合，得到所述结合参数；
根据所述结合参数，对所述目标视频中的目标对象进行图像重构，得到嘴部轮廓图和UV贴图；将所述嘴部轮廓图和所述UV贴图，确定为所述重构图像。7.根据权利要求6所述的方法，其特征在于，所述源参数包括：表情参数和嘴部关键点参数；所述目标参数包括目标嘴部关键点参数和目标人脸参数；所述目标人脸参数至少包括：目标姿态参数、目标形状参数和目标表情参数；所述对所述源参数和所述目标参数进行结合，得到所述结合参数，包括：采用所述表情参数替换所述目标人脸参数中的所述目标表情参数，得到替换后的人脸参数；采用所述嘴部关键点参数替换所述目标嘴部关键点参数，得到替换后的嘴部关键点参数；将所述替换后的人脸参数和所述替换后的嘴部关键点参数，确定为所述结合参数。8.根据权利要求7所述的方法，其特征在于，所述通过所述重构图像生成合成视频，包括：将每一时刻的所述替换后的人脸参数、所述替换后的嘴部关键点参数和与所述目标视频对应的背景图像，输入至图像渲染模型中；通过所述图像渲染模型中的第一渲染网络，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行嘴型区域渲染，得到嘴型区域纹理图像；通过所述图像渲染模型中的第二渲染网络，对所述嘴型区域纹...

【专利技术属性】
技术研发人员：张文杰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人