基于图像色域分布自适应调整的文本行人重识别算法制造技术

技术编号:34982985 阅读:16 留言:0更新日期:2022-09-21 14:26
本发明专利技术提供了一种基于图像色域分布自适应调整的文本行人重识别算法,所述方法包括以下步骤:首先将图像通过图像色域分布自适应调整模块,得到图像色域更加丰富的图像;将经过图像色域分布自适应调整模块处理过后的图片与未处理的文本描述通过图

【技术实现步骤摘要】
基于图像色域分布自适应调整的文本行人重识别算法


[0001]本专利技术涉及一种基于图像色域分布自适应调整的文本行人重识别算法,属于计算机视觉


技术介绍

[0002]行人重识别是视频监控领域的一项基本任务,其目的是在给定的查询条件下,在大规模的人物图像数据库中识别出相应的行人。
[0003]如今,随着上传到网络或存储在个人设备上的视频数量不断增加,能够在成千上万张图片中找到目标人物的系统的需求也越来越大。虽然通过基于属性的搜索方法可以用来在数据集中找到一个人,但这种方法需要那个人的示例图像。就可用性而言,如果可以使用更容易获得的文本查询,那将是更可取的,因此基于文本的行人重识别方法逐渐受到大家关注。
[0004]当前大多数行人重识别技术只能通过现有的几个行人数据集如CUHK

PEDES、RSTPReid等来训练模型,不能适应现实生活中千变万化的光照场景,例如有时艳阳高照,有时却阴云密布,从而导致模型对于不同数据的适应性较差。如果能够通过相应的方法对图像的色彩域的分布进行自适应的调整,不仅能够增加训练数据的多样性,同时还能够大大提高行人重识别模型对于不同数据的适应性。

技术实现思路

[0005]本专利技术的目的是针对当前大多数行人重识别技术只能够通过现有几个行人数据集来训练模型,不能适应现实生活中千变万化的光照场景,从而导致模型对于不同数据的适应性较差的问题,提出一种基于图像色域分布调整的文本行人重识别方法,可增加训练数据的多样性,提高模型的对于不同数据的适应性。
[0006]本专利技术提供一种基于图像色域分布自适应调整的文本行人重识别算法,其特征在于,所述方法包括以下步骤:
[0007]步骤1、通过图像色域分布自适应调整模块对输入图像的色彩域进行调整,得到调整过后的图像;
[0008]步骤2、使用图

文预训练方法得到所述行人的文本特征向量E与视觉特征图F;
[0009]步骤3、将前述行人文本特征向量E与视觉特征图F通过监督学习的行人重识别方法进行处理,获取文本与视觉的全局与局部特征;
[0010]步骤4、将前述多模态特征通过信息投影模块得到彼此模态的信息,计算相似度,进行模型训练,计算损失,得到训练模型;
[0011]步骤5、利用所述训练模型结合目标行人的文本描述和待识别行人图像进行行人重识别,从而得到行人重识别结果;
[0012]进一步的,所述步骤1中的图像色域分布自适应调整模块包含3个主要参数,在一些优选的实施方式中,所述图像色域分布自适应调整模块(D2AVM)主要对图像的光照、对比
度、色温3个参数进行自适应的调整,得到变化后的图像:
[0013]I
v
=D2AVM(I
o
)
[0014]其中I
o
为原始图片,I
v
为经过图像色域分布调整模块处理过后的图片。
[0015]进一步的,所述步骤2中的图

文预训练方法包含1个视觉编码器,1个文本编码器,在一些优选的实施方式中,所述视觉编码器为所述视觉编码器为1个增加1个归一化层,同时在变形操作之前加入位置编码的Vision Transformer模型,继而得到视觉特征图F:
[0016]F=IE(I
v
)
[0017]其中IE为视觉编码器,本算法中采用改进的Vision Transformer模型。
[0018]在一些优选的实施方式中,所述文本编码器为1个包含有多头注意力机制的Bert模型与1个双向LSTM模块,继而得到文本特征向量E:
[0019]E=TE(S)
[0020]其中,TE为文本编码器,本算法中采用改进的Bert模型与双向LSTM模块,S为未处理的文本描述。
[0021]进一步的,所述步骤3中的行人重识别方法包括1个全局特征提取网络和1个局部特征提取网络用来提取提取全局与局部特征,获取特征的方法具体为:
[0022]步骤3.1、首先通过全局特征提取网络提取两模态的全局特征,对前述文本特征向量E进行池化(RMP)与卷积(W
g
)操作,得到文本全局特征为:
[0023]t
g
=W
g
RMP(E)
[0024]对前述视觉特征图F进行池化(GMP)与卷积(W
g
)操作,得到视觉全局特征为:
[0025]v
g
=W
g
GMP(F)
[0026]步骤3.2、下一步通过局部特征提取网络提取两模态的局部特征,在文本模态,将前述文本特征向量E,首先通过词注意力模块进行处理,得到第i个单词属于第k个部分的概率为:
[0027][0028]其中p
i
包含上下文线索,可以用来推断第i个单词对应的部分,α
i
表示表示该单词在句中所占权重;
[0029]第k个部分的文本特征向量E
k
为:
[0030][0031]步骤3.3、对第k个部分的文本特征向量E
k
进行池化与卷积(W
i
)操作,得到文本模态局部特征为:
[0032][0033][0034]其中E
i
为通过行最大池化层获得到第k部分文本特征向量,α
i
为第i个文本局部特征向量权重;
[0035]步骤3.4、对前述视觉特征图F水平分割为k份(不重叠),可得第k个部分的视觉特
征向量F
k

[0036]步骤3.5、对前述F
k
进行池化与卷积(W
i
)操作,得到视觉模态不局部特征为:
[0037][0038][0039]其中,F
i
是通过全局最大池化层处理得到的第i个部分的视觉特征块,β
i
为第i个视觉局部特征向量权重。
[0040]进一步的,步骤4中所述得的信息投影模块(IProjM)将两种模态的信息互相通过投影方式传递到对方模态,目的是能够更好的将两种模态的信息匹配
[0041]f
p
=IProjM(f
o
,f
t
)
[0042]其中,f
o
为源模态下的特征信息,f
t
为目标模态下的特征信息,f
p
为源模态在目标模态下的特征信息,4种特征信息投影到对应模态表示为:
[0043][0044][0045][0046][0047]其中,为视觉全局特征投影在文本模态所得到新的特征信息,为文本全局特征投影在视觉模态所得到新的特征信息,为视觉局部特征投影在文本模态所得到新的特征信息,为文本局部特征投影在视觉模态所得到新的特征信息;将两种粒度特征融合得到:
[0048][0049][0050]进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像色域分布自适应调整的文本行人重识别算法,其特征在于,所述方法包括以下步骤:步骤1、通过图像色域分布自适应调整模块对输入图像的色彩域进行自适应调整;步骤2、使用图

文预训练方法得到所述行人的文本特征向量E与视觉特征图F;步骤3、将前述行人文本特征向量E与视觉特征图F通过监督学习的方式进行处理,获取文本与视觉的全局与局部特征;步骤4、将前述多模态特征通过信息投影模块得到彼此模态的信息,计算相似度,进行模型训练,得到训练模型;步骤5、利用所述训练模型结合目标行人的文本描述和待识别行人进行行人重识别,从而得到行人重识别结果;所述的图像色彩域分布自适应调整模块包含3个主要参数;所述的图

文预训练方法包含1个视觉编码器,1个文本编码器;所述行人重识别方法包括1个全局特征提取网络和1个局部特征提取网络。2.根据权利要求1步骤1所述行人重识别方法,其特征在于,所述的图像色域分布调整模块(D2AVM)包含3个主要参数,分别对图像的光照、对比度、色温进行自适应的调整,得到变化后的图像:I
v
=D2AVM(I
o
)其中I
o
为原始图片,I
v
为经过图像色域分布调整模块处理过后的图片。3.根据权利要求1步骤2所述的图

文预训练方法,其特征在于,所述视觉编码器为1个增加1个归一化层,同时在变形操作之前加入位置编码的Vision Transformer模型,继而得到视觉特征图F:F=IE(I
v
)其中IE为视觉编码器,本算法中采用改进的Vision Transformer模型。4.根据权利要求1步骤2所述的图

文预训练方法,其特征在于,所述文本编码器为1个包含有多头注意力机制的Bert模型与1个双向LSTM模块,继而得到文本特征向量E:E=TE(S)其中,TE为文本编码器,本算法中采用改进的Bert模型与双向LSTM模块,S为未处理的文本描述。5.根据权利要求1步骤3所述行人重识别方法,其特征在于,通过所述全局特征提取网络可获得两模态全局特征,在提取文本全局特征时进行池化(RMP)与卷积(W
g
)操作,文本全局特征为:t
g
=W
g
RMP(E)在提取视觉全局特征时进行池化(GMP)与卷积(W
g
),视觉全局特征为:v
g
=W
g
GMP(F) 。6.根据权利要求1步骤3所述行人重识别方法,其特征在于,通过所述局部特征提取网络可获得两模态局部特征,在提取文本局部特征时进行池化与卷积(W

【专利技术属性】
技术研发人员:薛敬祎朱艾春王子杰胡方强李义丰
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1