当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于可形变结构的行人图像生成方法和装置制造方法及图纸

技术编号:22221705 阅读:41 留言:0更新日期:2019-09-30 02:56
本发明专利技术涉及图像生成领域,特别涉及一种基于可形变结构的行人图像生成方法和装置。具体包括以下步骤:步骤一、对行人图片和目标姿态图片按照部位结构进行分割操作,进行提取mask操作;步骤二、然后进行部位生成操作,得到部位生成图片;步骤三、对部位生成图片进行结构化合并操作,得到结构化合并图片;步骤四、进行整体生成操作,得到生成图片。本发明专利技术在考虑人体可形变结构的基础上,降低训练的代价,提升算法的性能。

A Pedestrian Image Generation Method and Device Based on Deformable Structure

【技术实现步骤摘要】
一种基于可形变结构的行人图像生成方法和装置
本专利技术涉及图像生成领域,特别涉及一种基于可形变结构的行人图像生成方法和装置。
技术介绍
从一张行人图片根据给定姿态转换成另一张行人图片,是行人图像生成问题。行人图像生成问题是图像生成的一个领域,相比较普通的图像生成,行人图像生成因为要考虑更复杂的场景和多样的可形变姿态,会更加复杂和充满挑战性。可以根据传统的图像生成思路来解决行人图像生成问题,比如采用条件对抗生成网络,将人体全身的源图片作为条件指导网络生成具有源图片外观的新姿态图片;还可以采用循环对抗生成网络,替换行人图片的背景和光照,在保留人体特征的基础上,生成新的姿态和环境下的行人图片。这样的方法最大的问题是难以训练,人体作为可形变物体过于复杂,复杂的图片转换关系需要极大规模的训练样本。将人体信息引入生成过程是一种更好的解决思路,比如将姿态信息作为输入信息的一部分,提供先验条件的指引。人体可形变复杂性的关键就是姿态的多样性,姿态信息的先验指导可以有效地缓解生成复杂性,从而可以生成更真实的行人图片。同样的问题依然存在,全身的姿态转换依然复杂,想要生成更真实的图片依然需要海量的训练样本。
技术实现思路
本专利技术实施例提供了一种基于可形变结构的行人图像生成方法和装置,在考虑人体可形变结构的基础上,降低训练的代价,提升算法的性能。根据本专利技术实施例的第一方面,本专利技术一种基于可形变结构的行人图像生成方法,具体包括以下步骤:步骤一、对于输入的行人图片和目标姿态图片,对行人图片和目标姿态图片按照部位结构进行分割操作,得到的部位行人图片和部位目标姿态图片,对行人图片、目标姿态图片、部位行人图片和部位目标姿态图片均进行提取mask操作,得到行人mask图片、目标姿态图片mask图片、部位行人mask图片和部位目标姿态图片mask图片;步骤二、对部位行人图片预处理,对预处理后的部位行人图片、部位目标姿态图片和部位目标姿态mask图片,然后进行部位生成操作,得到部位生成图片;步骤三、对步骤二中部位生成操作得到的部位生成图片进行结构化合并操作,得到结构化合并图片;步骤四、对原始的行人图片进行预处理,将预处理后的行人图片和步骤三中的合并后的图片、目标姿态图片作为输入,然后进行整体生成操作,得到生成图片。所述步骤一中,分割操作具体包括以下步骤:1.1对行人图片和目标姿态图片,采用关节点检测算法,找到输入图片的关节点;1.2通过关节点的位置和确信度,判断提取的关节点是否可以使用;1.3如果关节点可以使用,根据双肩2个关节点的平均高度和髋关节2个关节点的平均高度,将图片分割为3个部分,双肩2个关节点的平均高度以上的部分为第一部分,2个关节点的平均高度和髋关节2个关节点的平均高度之间的部分为第二部分,髋关节2个关节点的平均高度以下的部分为第三部分;如果关节点不可以使用,根据固定尺寸将图片分割为3个部分,从上到下依次分别为第一部分、第二部分、第三部分。所述步骤二中,具体包括以下子步骤:2.1根据生成部位的不同,分为3个独立的生成网络,分别对应步骤一中的第一部分、第二部分和第三部分;2.2对于第i个独立的生成网络,包括生成器和判别器向生成器和判别器输入分割后的部位行人图片xi、分割后的目标姿态mask图片pi和分割后的目标姿态图片yi,通过训练输出和目标姿态一致的部位生成图片Gpi(xi,pi);2.3依次对3个独立的生成网络重复步骤2.2,得到所有的部位生成图片。所述步骤三,结构化合并操作包括如下子步骤:3.1对于得到的3个分别对应第一部分、第二部分和第三部分的生成部位图片,根据原图中不同部位的尺寸比例hT,i和wT,将生成的部位图片进行缩放,得到缩放后的3个生成部位图片3.2根据原图中部位结构的位置关系,将纵向合并为结构化合并后的部位生成图片;3.3调节结构化合并后的部位生成图片的颜色和边缘连接信息,Δhi是高度的偏移调整,ci是不同部位图片的色彩平衡调整因子,得到更真实的结构化合并图片Aw。所述步骤2.2具体包括以下子步骤:2.2a)将分割后的部位行人图片xi输入生成器得到生成图将部位行人图片xi和目标姿态mask图片pi输入生成器生成图片2.2b)将部位行人图片xi和目标姿态图片yi输入判别器得到将生成图Gpi(xi,pi)与部位目标姿态mask图片pi输入判别器得到2.2c)计算部位目标姿态图片yi、生成图Gpi(xi)与部位目标姿态mask图片pi的maskL1损失函数其中⊙指两个相同尺寸的矩阵之间的元素乘法,||*||1为1-范数;计算生成图Gpi(xi)和真实图片的对抗损失函数Vpi,Mask为目标姿态mask图片矩阵:为均值;2.2d)计算对抗损失函数为均值;2.2e)综合上述两个损失函数,第i个独立的生成网络,损失函数为:2.2f)通过最小化损失函数Li来更新生成器2.2g)通过最大化对抗损失函数更新判别器2.2k)返回2.2a)继续更新,直至损失函数Li减低到阈值或者迭代次数达到要求,输出和目标姿态一致的部位生成图片Gpi(xi,pi)。所述步骤四,整体生成操作包括如下子步骤:4.1将行人图片x输入生成器Gw得到生成图Gw(x),将行人图片x、目标姿态mask图片、合并图片Aw输入生成器Gw得到生成图Gw(x,p,Aw);4.2将目标姿态图片y输入判别器Dw得到Dw(y),将生成图Gw(x,p,Aw)输入判别器Dw得到Dw(Gw(x,p,Aw));4.3计算目标姿态图片y、生成图Gw(x)和mask图片p的maskL1损失函数M(Gw):⊙指两个相同尺寸的矩阵之间的元素乘法,||*||1为1-范数;4.4计算身份分类网络作为指导:其中,cl指目标人物的身份类别标签,如果分类网络预测的类别标签和cl一致则Qc=1,否则Qc=0,P(Gw(x,p,Aw))分类网络的输出概率分布;4.5计算对抗损失函数Vw:4.6整体生成网络,损失函数Lw为:Lw=Vw(Dw,Gw)+M(Gw)+C(Gw,cl)4.7通过最小化损失函数Lw来更新生成器Gw;4.8通过最大化对抗损失函数Vw(Dw,Gw)更新判别器Dw;4.9返回步骤4.1继续更新,直至损失函数Lw减低到可接受范围或者迭代次数达到要求,输出生成图片Gw(x,p,Aw)。所述步骤一中,提取mask操作具体为:对于输入的图片,采用mask检测算法,获得相应mask图片;其中,mask图片上的检测物体颜色统一为白色,背景颜色统一为黑色。所述步骤三中,Aw的计算公式为:其中,hT和wT表示目标图片的高度和宽度,hT,i表示目标图片第i个身体部位的高度;R(pic,h,w)代表将一张图片的尺寸调整为h*w的操作,O(h*w)指h*w尺寸的零矩阵。我们根据目标图片的部位结构关系重新组织部位图片的位置。为了保证部位连接处的平滑,Δhi是高度的偏移调整,而ci是不同部位图片的色彩平衡调整因子。一种基于可形变结构的行人图像生成装置,包括:图像预处理模块:对于输入的原行人图片和目标姿态图片,分别对原行人图片和目标姿态图片按照部位结构进行分割操作和提取mask操作,得到三组预处理后的部位行人mask图、部位目标姿态mask图片、部位行人图片和部位目标姿态图片;部位生成模块:对分割得到的部位行人本文档来自技高网...

【技术保护点】
1.一种基于可形变结构的行人图像生成方法,其特征在于,具体包括以下步骤:步骤一、对于输入的行人图片和目标姿态图片,对行人图片和目标姿态图片按照部位结构进行分割操作,得到的部位行人图片和部位目标姿态图片,对行人图片、目标姿态图片、部位行人图片和部位目标姿态图片均进行提取mask操作,得到行人mask图片、目标姿态图片mask图片、部位行人mask图片和部位目标姿态图片mask图片;步骤二、对部位行人图片预处理,对预处理后的部位行人图片、部位目标姿态图片和部位目标姿态mask图片进行部位生成操作,得到部位生成图片;步骤三、对步骤二中部位生成操作得到的部位生成图片进行结构化合并操作,得到结构化合并图片;步骤四、对原始的行人图片进行预处理,将预处理后的行人图片和步骤三中的合并后的图片、目标姿态图片作为输入,进行整体生成操作,得到生成图片。

【技术特征摘要】
1.一种基于可形变结构的行人图像生成方法,其特征在于,具体包括以下步骤:步骤一、对于输入的行人图片和目标姿态图片,对行人图片和目标姿态图片按照部位结构进行分割操作,得到的部位行人图片和部位目标姿态图片,对行人图片、目标姿态图片、部位行人图片和部位目标姿态图片均进行提取mask操作,得到行人mask图片、目标姿态图片mask图片、部位行人mask图片和部位目标姿态图片mask图片;步骤二、对部位行人图片预处理,对预处理后的部位行人图片、部位目标姿态图片和部位目标姿态mask图片进行部位生成操作,得到部位生成图片;步骤三、对步骤二中部位生成操作得到的部位生成图片进行结构化合并操作,得到结构化合并图片;步骤四、对原始的行人图片进行预处理,将预处理后的行人图片和步骤三中的合并后的图片、目标姿态图片作为输入,进行整体生成操作,得到生成图片。2.如权利要求1所述的一种基于可形变结构的行人图像生成方法,其特征在于,所述步骤一中,分割操作具体包括以下步骤:1.1对行人图片和目标姿态图片,采用关节点检测算法,找到输入图片的关节点;1.2通过关节点的位置和确信度,判断提取的关节点是否可以使用;1.3如果关节点可以使用,根据双肩2个关节点的平均高度和髋关节2个关节点的平均高度,将图片分割为3个部分,双肩2个关节点的平均高度以上的部分为第一部分,2个关节点的平均高度和髋关节2个关节点的平均高度之间的部分为第二部分,髋关节2个关节点的平均高度以下的部分为第三部分;如果关节点不可以使用,根据固定尺寸将图片分割为3个部分,从上到下依次分别为第一部分、第二部分、第三部分。3.如权利要求2所述的一种基于可形变结构的行人图像生成方法,其特征在于,所述步骤二中,具体包括以下子步骤:2.1根据生成部位的不同,分为3个独立的生成网络,分别对应步骤一中的第一部分、第二部分和第三部分;2.2对于第i个独立的生成网络,包括生成器和判别器向生成器和判别器输入分割后的部位行人图片xi、分割后的目标姿态mask图片pi和分割后的目标姿态图片yi,通过训练输出和目标姿态一致的部位生成图片Gpi(xi,pi);2.3依次对3个独立的生成网络重复步骤2.2,得到所有的部位生成图片。4.如权利要求3所述的一种基于可形变结构的行人图像生成方法,其特征在于,所述步骤三,结构化合并操作包括如下子步骤:3.1对于得到的3个分别对应第一部分、第二部分和第三部分的生成部位图片,根据原图中不同部位的尺寸比例hT,i和wT,将生成的部位图片进行缩放,得到缩放后的3个生成部位图片3.2根据原图中部位结构的位置关系,将纵向合并为结构化合并后的部位生成图片;3.3调节结构化合并后的部位生成图片的颜色和边缘连接信息,Δhi是高度的偏移调整,ci是不同部位图片的色彩平衡调整因子,根据Δhi和ci得到得到更真实的结构化合并图片Aw。5.如权利要求4所述的一种基于可形变结构的行人图像生成方法,其特征在于,所述步骤2.2具体包括以下子步骤:2.2a)将分割后的部位行人图片xi输入生成器得到生成图Gpi(xi),将部位行人图片xi和目标姿态mask图片pi输入生成器生成图片2.2b)将部位行人图片xi和目标姿态图片yi输入判别器得到将生成图Gpi(xi,pi)与部位目标姿态mask图片pi输入判别器得到2.2c)计算部位目标姿态图片yi、生成图Gpi(xi)与部位目标姿态mask图片pi的maskL1损失函数其中⊙指两个相同尺寸的矩阵之间的元素乘法,||*||1为1-...

【专利技术属性】
技术研发人员:田永鸿常亦谦翟云鹏史业民王耀威
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1