一种基于姿态引导、风格和形状特征约束的人体图像生成方法技术

技术编号:29405894 阅读:72 留言:0更新日期:2021-07-23 22:44
本发明专利技术公开了一种基于姿态引导、风格和形状特征约束的人体图像生成方法,包括:(1)采集获取源人体图像I

【技术实现步骤摘要】
一种基于姿态引导、风格和形状特征约束的人体图像生成方法
本专利技术属于人体图像生成
,尤其是涉及一种基于姿态引导、风格和形状特征约束的人体图像生成方法。
技术介绍
人体图像生成是计算机视觉领域中一个重要的分支,可以被广泛地应用于行人重识别的数据增强、电影角色制作、虚拟试衣、增强现实等领域。基于姿态引导的人体图像生成是指给定一个目标姿态、和一张(组)源图像,在目标姿态的引导下,生成目标姿态下的具有源图像风格特征的目标人体图像。如公开号为CN112116673A的中国专利文献公开了一种姿态引导下的基于结构相似性的虚拟人体图像生成方法;公开号为CN109191366A的中国专利文献公开了一种基于人体姿态的多视角人体图像合成方法及装置。目前的人体图像生成存在两方面的问题:(1)在风格特征提取中,往往以源图像整体为输入提取一个全局的风格特征,而无法单独提取特定语义区域的特征。(2)控制方式单一,只能改变源图像的姿态,而无法控制特定的语义区域的风格和形状。因此,亟需一种能够提供多样化的图像合成控制方式的人体图像生成方法。
技术实现思路
本专利技术提供了一种基于姿态引导、风格和形状特征约束的人体图像生成方法,可以按语义区域提取风格特征,控制人体图像的姿态和形状。一种基于姿态引导、风格和形状特征约束的人体图像生成方法,包括以下步骤:(1)采集获取源人体图像Is和目标人体图像It,根据源人体图像和目标人体图像分别获得其姿态图像Ps、Pt和人体语义分割图像Ss、St;(2)构建生成器G和判别器DI、DP,其中,生成器G包括风格编码器Encoderstyle、姿态编码器Encoderpose、形状编码器Encodershape和解码器Decoder;判别器DI用于判别生成的虚拟目标图像If与源人体图像Is之间的纹理相似性;判别器DP用于判别生成的虚拟目标图像If与目标姿态Pt的一致性;(3)将步骤(1)中得到的源人体图像Is和源人体语义分割图像Ss输入风格编码器Encoderstyle,目标姿态图像Pt输入姿态编码器Encoderpose,目标人体语义分割图像St输入形状编码器Encodershape;把依次提取得到的风格特征、姿态特征和形状特征输入解码器Decoder中,获得虚拟目标人体图像If;(4)把(Is,It)和(Is,If)分别作为判别器DI的输入,把(Pt,It)和(Pt,If)分别作为判别器DP的输入,分别计算对抗损失Ladv,并基于If和It计算图像重建损失Lreconstruction、感知损失Lperceptual和语义损失LCX,优化G;(5)循环步骤(3)和步骤(4),达到预设的迭代次数后,获得训练好的生成器G,并用于现实场景中虚拟目标图像的生成。步骤(1)中,姿态图像的关键点个数N=18,人体语义分割图像的类别个数C=8。步骤(2)的具体步骤为:(2-1)构建风格编码器EncoderstyleEncoderstyle包含5个3×3卷积层已经预训练的VGG网络,前4个卷积层提取出的特征图大小分别对应VGG中{1_1,2_1,3_1,4_1}特征图大小;依次组合卷积层提取的特征和VGG网络提取的特征,再输入下一个卷积层;最后一个卷积层,把特征从1024维映射到64维;使用时,首先使用语义分割图像分割出8个独立的图像接着把8个独立的语义图像分别输入Encoderstyle中输出对应的风格特征,最后将它们依次级联,得到最终的512维的风格特征。(2-2)构建姿态编码器Encoderpose和形状编码器EncodershapeEncoderpose和Encodershape的网络结构相同,都包括4个3×3卷积层,激活层为ReLU层,提取512维的姿态特征和形状特征;(2-3)构建解码器Decoder以姿态特征作为输入,使用风格特征和形状特征计算归一化参数;先经过4个ResBlock,保持通道不变;接着经过3组上采样层和ResBlock层;除了最后一层激活层为tanh,其余激活层皆为ReLU层。(2-4)构建判别器DI、DP使用PatchGAN作为判别器,包括4个3×3卷积层和3个残差块,判别器的Dropout设置为0.5。步骤(4)中,所述的对抗损失函数的定义为:式中,E表示期望。步骤(4)中,图像重建损失Lreconstruction是虚拟目标图像和真实目标图像之间的L1损失,定义为:Lreconstruction=||G(Is,Ss,Pt,St)-It||1.图像感知损失定义为:其中,表示格拉姆矩阵,表示用预训练的VGG19网络提取的It的第l层特征图,l=relu{3_2,4_2};语义损失LCX定义为:式中,表示用预训练的VGG19网络提取的If的第l层特征图。步骤(5)中,训练过程中,学习率初始为0.0001,在1000次迭代中,线性衰减至0。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术所提供的基于姿态引导、风格和形状特征约束的人体图像生成方法中,基于语义分割图像的风格编码器可以独立提取各个语义区域的特征,并按照预设顺序组合为风格特征,使得不同语义区域之间的特征具有独立性,在一组源图像情况下,可以实现风格特征重组,在实际应用中更加灵活。2、本专利技术所提供的基于姿态引导、风格和形状特征约束的人体图像生成方法中,解码器使用目标语义分割图像的形状特征进行归一化,能够输出符合目标语义分割的图像,与现有基于姿态引导的人体图像生成方法相比,本专利技术提供了通过修改语义分割图像来修改生成图像的控制方式。附图说明图1为本专利技术方法的流程示意图;图2为本专利技术人体图像姿态示意图;图3为本专利技术人体图像语义分割示意图;图4为本方法风格编码器示意图。具体实施方式下面结合附图和实施例对本专利技术做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本专利技术的理解,而对其不起任何限定作用。如图1所示,一种基于姿态引导、风格和形状特征约束的人体图像生成方法,包括以下步骤:步骤1,采集获取源人体图像Is和目标人体图像It;根据源人体图像和目标人体图像分别获得其姿态图像Ps,Pt和人体语义分割图像Ss,St。具体的,如图2所示,姿态图像关键点个数N=18;如图3所示,人体语义分割图像类别个数C=8。步骤2,构建生成器G和判别器DI、DP,其中生成器G包括风格编码器Encoderstyte、姿态编码器Encoderpose、形状编码器Encodershape和解码器Decoder。具体步骤如下:步骤2.1,构建Encoderstyle,如图4所示。Encoderstvle包含5个3×3卷积层已经预训练的VGG网络,前4个卷积层提取出的特征图大小分别对应本文档来自技高网...

【技术保护点】
1.一种基于姿态引导、风格和形状特征约束的人体图像生成方法,其特征在于,包括以下步骤:/n(1)采集获取源人体图像I

【技术特征摘要】
1.一种基于姿态引导、风格和形状特征约束的人体图像生成方法,其特征在于,包括以下步骤:
(1)采集获取源人体图像Is和目标人体图像It,根据源人体图像和目标人体图像分别获得其姿态图像Ps、Pt和人体语义分割图像Ss、St;
(2)构建生成器G和判别器DI、DP,其中,生成器G包括风格编码器Encoderstyle、姿态编码器Encoderpose、形状编码器Encodershape和解码器Decoder;判别器DI用于判别生成的虚拟目标图像If与源人体图像Is之间的纹理相似性;判别器DP用于判别生成的虚拟目标图像If与目标姿态Pt的一致性;
(3)将步骤(1)中得到的源人体图像Is和源人体语义分割图像Ss输入风格编码器Encoderstyle,目标姿态图像Pt输入姿态编码器Encoderpose,目标人体语义分割图像St输入形状编码器Encodershape;
把依次提取得到的风格特征、姿态特征和形状特征输入解码器Decoder中,获得虚拟目标人体图像If;
(4)把(Is,It)和(Is,If)分别作为判别器DI的输入,把(Pt,It)和(Pt,If)分别作为判别器DP的输入,分别计算对抗损失Ladv,并基于If和It计算图像重建损失Lreconstruction、感知损失Lperceptual和语义损失LCX,优化G;
(5)循环步骤(3)和步骤(4),达到预设的迭代次数后,获得训练好的生成器G,并用于现实场景中虚拟目标图像的生成。


2.根据权利要求1所述的基于姿态引导、风格和形状特征约束的人体图像生成方法,其特征在于,步骤(1)中,姿态图像的关键点个数N=18,人体语义分割图像的类别个数C=8。


3.根据权利要求1所述的基于姿态引导、风格和形状特征约束的人体图像生成方法,其特征在于,步骤(2)的具体步骤为:
(2-1)构建风格编码器Encoderstyle
Encoderstyle包含5个3×3卷积层和已经预训练的VGG网络,前4个卷积层提取出的特征图大小分别对应VGG中{1_1,2_1,3_1,4_1}层的特征图大小;依次组合卷积层提取的特征和VGG网络提取的...

【专利技术属性】
技术研发人员:卢书芳卢富男朱翔寿旭峰陶相艳高飞
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1