当前位置: 首页 > 专利查询>湖南大学专利>正文

姿势导引的风格保持人体图像生成方法技术

技术编号:26972786 阅读:21 留言:0更新日期:2021-01-06 00:05
本发明专利技术提供了一种基于深层的条件生成对抗网络,自动生成特定人物在新的视点和不同姿势下的图像方法。本发明专利技术设计的损失功能将更好地保存原始图像可见的外观细节,且采用的神经网络能使从源图像中消失的身体部位产生幻象。其中,网络整体结构包含:一个U型网络生成器,结合可变自动编码器,以及一个可同时训练的鉴别器。本发明专利技术能够根据输入的源图像和N=17个关节的二维骨架姿势图像,训练模型生成所需姿势的同一个人的图像。针对大多数现有方法尚未能解决的颜色误解和纹理图案失真的问题,实验效果良好,无批量错误产出。本发明专利技术结合多尺度样式损失来解决纹理特征的一致性问题,很好地克服了部分遮挡问题,从而显著提高了结果的准确性。

【技术实现步骤摘要】
姿势导引的风格保持人体图像生成方法
本专利技术涉及图片生成领域,尤其涉及一种姿势导引的风格保持人体图像生成方法。
技术介绍
在计算机图形和图像处理社区中,生成逼真的人的图像是一项长期而艰巨的挑战,并且已经激发了广泛的应用,例如,人员重新识别训练数据集的增强,电影角色的制作以及基于合成图像的图像检索。最近的研究工作表明,深度神经网络是自动图像生成中的强大工具,尤其是通过使用给定数据集训练的生成对抗网络(GANs)和变异自动编码器(VAE)可以生成具有以下特征的数据:训练数据集的共同属性。此外,条件生成对抗网络(cGAN)可以根据一些条件变量(例如,标签或其他图像)来合成图像。通常,上述方法用于合成具有形状不变性和对称性的非关节物体,例如人脸,建筑物和汽车。但是,生成人体图像是一项更具挑战性的任务,因为人体具有复杂的铰接和非刚性结构,并且自由度明显更高。为了生成人类图像,越来越多的研究人员开始关注设计具有某些条件的新型网络,例如一对参考人类图像和骨骼姿势图像作为此任务的输入。最近的工作提出了使用多阶段生成方法从单视图图像生成多视图人类图像的方法,该方法分别专注于生成全局人体形状和外观细节。相反,Esser等人使用端到端训练方法以所需姿势合成新颖人物图像。他们提出了带有两个编码器的可变U-Net框架,分别用于对外观和形状信息进行建模。两种方法都可以将参考图像上的人物转移到目标姿势。但是,图像质量在视觉上不能令人满意。因此,生成轮廓清晰,外观细腻的人体图像仍然是一个未解决的问题。
技术实现思路
(一)要解决的技术问题本专利技术的目的在于提供一种基于深度神经网络技术,以姿势导引的风格保持人体图像生成方法,以解决上述的至少一项技术问题。(二)技术方案本专利技术提供了一种姿势导引的风格保持人体图像生成方法的网络架构,包括:图像生成器模块,用于接收N=17个关节的二维骨架姿势图像和参考人物图像,生成具有与源图像相同大小的新图像。鉴别器模块,用于将每个真实或生成的样本建模为无向概率图,对整个图像进行卷积运算,对所有响应求平均值,以获得最终输出。在本专利技术的一些实施例中,所述图像生成器模块包括:编码器用于在训练期间,将N=17个关节的二维骨架姿势图像产生潜像;编码器Encθ,用于在训练期间,将参考人物图像产生潜像;解码器Decθ,用于生成与参考人物图像相同大小的新图像。其中:编码器与Encθ相同;编码器Encθ与解码器Decθ建立残差连接。在本专利技术的一些实施例中,图像生成器模块包括训练步骤:N=17个关节的二维骨架姿势图像和参考人物图像通过两个相同的编码器和Encθ分别产生两个潜像;两个潜像被组合,以生成潜在变量;潜在变量通过解码器网络Decθ生成与参考人物图像相同大小的新图像;附加的残差连接将Encθ中的每个块连接到Decθ中的相应块,将姿态特征流从二维骨架姿势图像覆盖到所有分辨率级别输出。在本专利技术的一些实施例中,所述鉴别器模块:通过对抗训练方法与预训练的CNN(VGG19)相结合来实现感知优化;将鉴别器实现为PatchGan分类器体系结构,以局部补丁操作图像,并明确要求每个镜像补丁都是真实的;鉴别器将每个真实或生成的样本建模为马尔可夫随机场(MRF),即无向概率图;鉴别器对整个图像进行卷积运算,对所有响应求平均值,以获得最终输出;对于每个训练迭代,使用PatchGan作为鉴别器,它与生成器并行地进行训练,以区分真实图像和生成的图像。姿势导引的风格保持人体图像生成方法的损失函数Ltotal,定义为:Ltotal=Ladv+Lcontent+Lmultiscalestyle+λklLkl合并了一种新颖的多尺度样式损失,以适应具有高斯金字塔的纹理系统,该纹理系统可确保输出图像中的颜色和纹理细节与源图像精确一致;用于更好地将损失最小化;损失函数中对抗损失Ladv定义为:其中,使用Wasserstein距离作为分布之间的差异度量,而不是常规Gan中使用的S形交叉熵损失;D是1-Lipschitz函数的集合;Pr和Pg表示由隐式定义的实际图像分布和模型分布。损失函数中对内容损失Lcontent定义为:令ψk(·)为网络第k层的激活,则内容损失定义为特征表示之间的差异;Ck表示CNN层权重并控制第k层的重要性,在实验中将Ck设置为0或1;Lcontent用于保留生成图像和原始图像之间的身份。损失函数中对多尺度风格损失Lmultiscale_style定义为:将S定义为八度音阶数;vs和wl代表八度音阶权重和CNN层权重;将S=3设为vs值0或1,wl值0或0.1;所有感兴趣的图层和比例均经过统一加权;使用具有接受区域的特征来覆盖整个图像并捕获完整的空间结构;VGG-19中嵌入多层高斯金字塔,通过模糊和下采样输入图像来形成高斯金字塔的每一层。损失函数中还包括:λkl是权重系数,用于控制Kullback-Leibler散度的相对重要性;Lkl表示Kullback-Leibler散度Lkl=KL(qφ(z|x)||pθ(·||y,z))(三)有益效果本专利技术的姿势导引的风格保持人体图像生成方法,相较于现有技术,至少具有以下优点:1、给定一个表示为骨骼图像的所需姿态和一个具有任意姿态的参考人体图像,本专利技术可以生成同一个人的图像,即,穿着同样的衣服,摆出想要的姿势;2、较好地克服了部分遮挡问题,可应用于任意姿态到参考人体图像的转换;3、引入了一种新的多尺度风格损失来考虑纹理特征一致性,这显著提高了结果的准确性,特别是针对现有大多数方法中存在的颜色误读和纹理模式失真问题;4、能够保证整体颜色精确,且与源图像等价,以及保证织物纹理图案结构肉眼所视良好。附图说明图1为本专利技术实施例在给定参考人体图像(左)和期望的姿势(上)时的演示效果示意图。图2为本专利技术实施例的网络的完整结构示意图。具体实施方式最近的研究工作表明,深度神经网络是自动生成图像的强大工具,特别是生成对抗网络(GANs)和使用给定数据集训练的变分自动编码器(VAEs)可以用来生成具有训练数据集公共属性的数据。此外,条件生成对抗网络(cGAN)可以根据图像的特征来合成图像。一般来说,上述方法用于合成具有形状不变性和对称性的非铰接物体,然而,生成人体图像是一个更具挑战性的任务,因为人体具有复杂的铰接和非刚性结构,自由度明显更大。有鉴于此,本专利技术提供了姿势导引的风格保持人体图像生成方法,通过训练一个深层的条件生成对抗网络来解决这些挑战。我们的网络中的生成器通过使用条件变分自动编码器来同时实现对结构和外观的控制。在编码器和解码器的镜像层之间存在跳过连接本文档来自技高网...

【技术保护点】
1.一种姿势导引的风格保持人体图像生成方法的网络架构,包括:/n图像生成器模块,用于接收N=17个关节的二维骨架姿势图像和参考人物图像,生成具有与源图像相同大小的新图像。/n鉴别器模块,用于将每个真实或生成的样本建模为无向概率图,对整个图像进行卷积运算,对所有响应求平均值,以获得最终输出。/n

【技术特征摘要】
1.一种姿势导引的风格保持人体图像生成方法的网络架构,包括:
图像生成器模块,用于接收N=17个关节的二维骨架姿势图像和参考人物图像,生成具有与源图像相同大小的新图像。
鉴别器模块,用于将每个真实或生成的样本建模为无向概率图,对整个图像进行卷积运算,对所有响应求平均值,以获得最终输出。


2.根据权利要求1所述的姿势导引的风格保持人体图像生成方法的网络架构,其中,所述图像生成器模块包括:
编码器用于在训练期间,将N=17个关节的二维骨架姿势图像产生潜像;
编码器Encθ,用于在训练期间,将参考人物图像产生潜像;
解码器Decθ,用于生成与参考人物图像相同大小的新图像。


3.根据权利要求2所述的图像生成器模块,其中:
编码器与Encθ相同;
编码器Encθ与解码器Decθ建立残差连接。


4.根据权利要求2所述的图像生成器模块,包括训练步骤:
N=17个关节的二维骨架姿势图像和参考人物图像通过两个相同的编码器和Encθ分别产生两个潜像;
两个潜像被组合,以生成潜在变量;
潜在变量通过解码器网络Decθ生成与参考人物图像相同大小的新图像;
附加的残差连接将Encθ中的每个块连接到Decθ中的相应块,将姿态特征流从二维骨架姿势图像覆盖到所有分辨率级别输出。


5.根据权利要求1所述的姿势导引的风格保持人体图像生成方法的网络架构,其中,所述鉴别器模块:
通过对抗训练方法与预训练的CNN(VGG19)相结合来实现感知优化;
将鉴别器实现为PatchGan分类器体系结构,以局部补丁操作图像,并明确要求每个镜像补丁都是真实的;
鉴别器将每个真实或生成的样本建模为马尔可夫随机场,即无向概率图;
鉴别器对整个图像进行卷积运算,对所有响应求平均值,以获得最终输出;
对于每个训练迭代,使用PatchGan作为鉴别器,它与生成器并行地进行训练,以区分真实图像和生成的图像。


6.一种姿势导引的风格保持人体图像生成方法的损失函数Lto...

【专利技术属性】
技术研发人员:周世哲刘增玉李义文
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1