一种基于注意力机制的人体姿态转换方法技术

技术编号:35735453 阅读:9 留言:0更新日期:2022-11-26 18:37
本发明专利技术公开了一种基于注意力机制的人体姿态转换方法,其特点是将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像;构建源人体图像中所有语义风格的自注意力模块;构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块,利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图;将自注意力模块和交叉注意力模块嵌入到生成器中,训练一个生成对抗网络,实现人体姿态转换。本发明专利技术与现有技术相比具有使用一个训练阶段可以同时生成目标人体图像和目标语义分割图,显著地提高图像质量的特点,方法简单,效率高,较好地解决了由于源人体图像和目标姿态之间缺乏高效融合导致生成图像质量差的问题。成图像质量差的问题。成图像质量差的问题。

【技术实现步骤摘要】
一种基于注意力机制的人体姿态转换方法


[0001]本专利技术涉及计算机视觉与数字图像处理
,尤其是一种基于注意力机制的人体姿态转换方法。

技术介绍

[0002]目前,人体姿态转换具有许多潜在的应用,比如行人重识别、虚拟服装试穿等。现在的方法通常采用Squeeze

and

Extraction(SE)或Adaptive Instance Normalization(AdaIN)来融合源人体图像和目标姿态图像,然而这些方法缺乏对齐源人体图像与目标姿态图像的能力;或者使用二维或三维形变估计源姿态图像和目标姿态图像之间的对应关系,从而引导源人体图像在目标姿态图像下的分布,这些方法虽然可以生成真实的纹理,但当面对巨大形变时它们可能会产生明显的伪影。
[0003]此外,也有方法采用交叉注意力机制计算源人体图像和目标姿态图像之间的密集相关矩阵,但每个目标位置只与源人体图像中的一小块区域有关联,这也就意味着密集相关矩阵应该是一个稀疏矩阵,而这种密集相关矩阵会导致二次内存消耗。
[0004]因此,一种高效的使用注意力机制融合源人体图像和目标姿态图像的方法十分必要。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种基于注意力机制的人体姿态转换方法,采用将注意力模块嵌入到人体姿态转换网络的方法,提升生成图像的质量:将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像;构建源人体图像中所有语义风格的自注意力模块;构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块,且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图;将自注意力模块和交叉注意力模块嵌入到生成器中,训练一个生成对抗网络,实现人体姿态转换,显著地提高图像质量,方法简单,效率高,较好地解决了由于源人体图像和目标姿态图像之间缺乏高效融合导致生成图像质量差的问题。
[0006]本专利技术的目的是这样实现的:
[0007]一种基于注意力机制的人体姿态转换方法,其特点是在将注意力模块嵌入到人体姿态转换网络,将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像;构建源人体图像中所有语义风格的自注意力模块;构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块,且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图;将自注意力模块和交叉注意力模块嵌入到生成器中,训练一个生成对抗网络,实现人体姿态转换,具体包括以下步骤:
[0008]步骤1:将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像;
[0009]步骤2:构建源人体图像中所有语义风格的自注意力模块;
[0010]步骤3:构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块,且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图;
[0011]步骤4:将自注意力模块和交叉注意力模块嵌入到生成器中,训练一个生成对抗网络,实现人体姿态转换。
[0012]所述生成器由姿态编码器、风格编码器、AdaIN模块和解码器组成,其中目标姿态图像输入姿态编码器得到目标姿态特征,源人体图像和包含K个语义的源语义分割图输入风格编码器得到K个语义风格编码,然后将K个语义风格编码通过AdaIN模块以侧枝的形式注入到目标姿态特征中,得到初步融合的特征F
crs
,最后将初步融合的特征F
crs
输入解码器生成源人体图像在目标姿态图像下的目标人体图像。
[0013]所述步骤2,具体包括:
[0014]步骤2

1:将K个语义风格编码全部作为查询值query、键值key和值项value,其中查询值query、键值key和值项value的维度大小均为K*C,计算K个语义风格编码之间的相似度,即查询值query与键值key矩阵相乘,经softmax函数处理后得到自注意力矩阵AM
S
,其维度大小为K*K;
[0015]步骤2

2:将自注意力矩阵AM
S
与值项value矩阵相乘,得到自注意力机制的输出self_out,其维度大小为K*C;
[0016]步骤2

3:将自注意力机制的输出self_out与K个语义风格编码相加,得到自注意力机制的残差输出residual_self,其维度大小为K*C;
[0017]所述步骤3,具体包括:
[0018]步骤3

1:将初步融合的特征F
crs
作为查询值query,其维度大小为HW*C,自注意力机制的残差输出residual_self作为键值key和值项value,其维度大小为K*C,计算初步融合的特征F
crs
与自注意力机制的残差输出residual_self之间的相似度,即查询值query和键值key矩阵相乘,经softmax函数处理后得到交叉注意力矩阵AM,其维度大小为HW*K;
[0019]步骤3

2:将交叉注意力矩阵AM与值项value矩阵相乘,得到交叉注意力机制的输出cross_out,其维度大小为HW*C;
[0020]步骤3

3:将交叉注意力机制的输出cross_out与初步融合的特征F
crs
相加,得到交叉注意力机制的残差输出residual_cross,其维度大小为HW*C;
[0021]步骤3

4:输入源人体图像在目标姿态图像下的语义分割图,将其作为真实标注GroudTruth,使用交叉熵损失约束交叉注意力矩阵AM,从而利用交叉注意力矩阵AM生成目标语义分割图。
[0022]所述注意力模块嵌入到生成器中的方式为:自注意力模块和交叉注意力模块接在AdaIN模块后,解码器前。
[0023]本专利技术与现有技术相比具有只使用一个训练阶段就可以同时生成目标人体图像和目标语义分割图,显著地提高人体图像质量和语义分割图准确率的特点,方法简单,效率高,节省显存,较好地解决了由于源人体图像和目标姿态图像之间缺乏高效融合导致生成图像质量差的问题。
附图说明
[0024]图1为本专利技术的流程示意图;
[0025]图2为本专利技术生成器中所有模块示意图;
[0026]图3为本专利技术自注意力模块示意图;
[0027]图4为本专利技术交叉注意力模块示意图;
[0028]图5为本专利技术嵌入自注意力模块和交叉注意力模块的生成器示意图。
具体实施方式
[0029]为了更加清楚明白地说明本专利技术所述的技术手段、技术改进及有益效果,以下结合附图对本专利技术进行详细的说明。
[0030]本专利技术公开一种基于注意力机制的人体姿态转换方法,包括以下具体步骤:
[0031]步骤1:将源人体图像和目标姿态图像送入生成器转换为源人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的人体姿态转换方法,其特征在于,该方法包括以下具体步骤:步骤1:将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像;步骤2:构建源人体图像中所有语义风格的自注意力模块;步骤3:构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块,且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图;步骤4:将自注意力模块和交叉注意力模块嵌入到生成器中,训练一个生成对抗网络,实现人体姿态转换。2.根据权利要求1所述的基于注意力机制的人体姿态转换方法,其特征在于,所述生成器由姿态编码器、风格编码器、AdaIN模块和解码器组成,其中目标姿态图像输入姿态编码器得到目标姿态特征,源人体图像和包含K个语义的源语义分割图输入风格编码器得到K个语义风格编码,然后将K个语义风格编码通过AdaIN模块以侧枝的形式注入到目标姿态特征中,得到初步融合的特征F
crs
,最后将初步融合的特征F
crs
输入解码器生成源人体图像在目标姿态图像下的目标人体图像。3.根据权利要求1所述基于注意力机制的人体姿态转换方法,其特征在于,所述步骤2,具体包括:步骤2

1:将K个语义风格编码全部作为查询值query、键值key和值项value,其中查询值query、键值key和值项value的维度大小均为K*C,计算K个语义风格编码之间的相似度,即查询值query与键值key矩阵相乘,经softmax函数处理后得到自注意力矩阵AM
S
,其维度大小为K*K;步骤2

2:将自注意力矩阵AM
S
与值项value矩阵相乘,得到自注意力机制的输出...

【专利技术属性】
技术研发人员:孙力周新月
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1