一种人脸图像生成方法、装置、设备及存储介质制造方法及图纸

技术编号:36437061 阅读:16 留言:0更新日期:2023-01-20 22:51
本发明专利技术提供一种人脸图像生成方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。本发明专利技术提供的实施例通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。使得控制更加灵活。使得控制更加灵活。

【技术实现步骤摘要】
一种人脸图像生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种人脸图像生成方法、装置、设备及存储介质。

技术介绍

[0002]在相关技术中,现有技术通常使用四个不同的神经网络分别提取身份、语音、头部姿态和情绪信息,再通过一些数据增强手段,让不同的神经网络对上述的不同动作属性信息(身份、语音、头部姿态和情绪信息)进行提取和编码,生成可以控制的人脸图像。
[0003]然而,现有技术至少存在以下缺陷:1)现有技术对控制信号没有做解耦处理,因此各控制信号耦合性较高,也可能会互相包含重复的动作属性信息,从而导致生成的人脸图像不是完全可控;2)现有技术对不同动作属性信息的编码分散,使用多个模型分别表示不同信息,不具备统一性;3)现有技术大都是用特定表情数据集以达到对表情控制的效果,但该特定数据集通常包含id数少且属于受限场景,模型泛化能力差;因此,在生成可控制人脸图像的情况下,如何克服上述存在的缺陷是目前亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本专利技术提供一种人脸图像生成方法、装置、设备及存储介质,通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
[0005]第一方面,本专利技术提供一种人脸图像生成方法,包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
[0006]优选地,根据本专利技术提供的一种人脸图像生成方法,所述对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号,包括:对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号。
[0007]优选地,根据本专利技术提供的一种人脸图像生成方法,所述根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完
备驱动信号,包括:对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;根据所述外观动作图像,得到所述完备驱动信号。
[0008]优选地,根据本专利技术提供的一种人脸图像生成方法,所述根据所述外观动作图像,得到所述完备驱动信号,包括:将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
[0009]优选地,根据本专利技术提供的一种人脸图像生成方法,所述将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,包括:将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像;对所述前景图像进行抠图处理,得到所述目标外观动作图像。
[0010]优选地,根据本专利技术提供的一种人脸图像生成方法,所述完备驱动信号由多个不同动作属性对应的动作信号组成;所述对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征,包括:获取与每一所述动作信号对应的动作子空间;将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
[0011]优选地,根据本专利技术提供的一种人脸图像生成方法,所述驱动对象数据至少包括:语音数据;所述驱动特征至少包括:语音驱动特征;生成所述语音驱动特征的步骤,包括:将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征;获取经所述动作编码器编码得到的视频嘴型特征;根据所述视频嘴型特征和所述音频嘴型特征,确定出所述视频嘴型特征和所述音频嘴型特征在时间维度上的正样本和负样本;对所述正样本和所述负样本进行计算,得到所述语音驱动特征。
[0012]第二方面,本专利技术还提供一种人脸图像生成装置,包括:获取驱动对象数据模块,用于获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;生成完备驱动信号模块,用于对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;解耦模块,用于对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;
生成目标人脸图像模块,用于将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
[0013]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人脸图像生成方法的步骤。
[0014]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人脸图像生成方法的步骤。
[0015]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人脸图像生成方法的步骤。
[0016]本专利技术提供的一种人脸图像生成方法、装置、设备及存储介质,通过获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
附图说明
[0017]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术提供的人脸图像生成方法的流程示意图之一;图2是本专利技术提供的生成完备驱动信号的示意图;图3是本专利技术提供的解耦驱动特征的空间投影示意图;图4是本专利技术提供的生成语音驱动特征的示意图;图5是本专利技术提供的统一生成驱动特征的示意图;图6是本专利技术提供的人脸图像生成装置的结构示意图;图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0019]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人脸图像生成方法,其特征在于,包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。2.根据权利要求1所述的人脸图像生成方法,其特征在于,所述对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号,包括:对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号。3.根据权利要求2所述的人脸图像生成方法,其特征在于,所述根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号,包括:对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;根据所述外观动作图像,得到所述完备驱动信号。4.根据权利要求3所述的人脸图像生成方法,其特征在于,所述根据所述外观动作图像,得到所述完备驱动信号,包括:将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。5.根据权利要求4所述的人脸图像生成方法,其特征在于,所述将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,包括:将所述外观动作图像输入所述抠图模型进行分割处...

【专利技术属性】
技术研发人员:王多民王宝元
申请(专利权)人:北京红棉小冰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1