【技术实现步骤摘要】
基于图像色域分布自适应调整的文本行人重识别算法
[0001]本专利技术涉及一种基于图像色域分布自适应调整的文本行人重识别算法,属于计算机视觉
技术介绍
[0002]行人重识别是视频监控领域的一项基本任务,其目的是在给定的查询条件下,在大规模的人物图像数据库中识别出相应的行人。
[0003]如今,随着上传到网络或存储在个人设备上的视频数量不断增加,能够在成千上万张图片中找到目标人物的系统的需求也越来越大。虽然通过基于属性的搜索方法可以用来在数据集中找到一个人,但这种方法需要那个人的示例图像。就可用性而言,如果可以使用更容易获得的文本查询,那将是更可取的,因此基于文本的行人重识别方法逐渐受到大家关注。
[0004]当前大多数行人重识别技术只能通过现有的几个行人数据集如CUHK
‑
PEDES、RSTPReid等来训练模型,不能适应现实生活中千变万化的光照场景,例如有时艳阳高照,有时却阴云密布,从而导致模型对于不同数据的适应性较差。如果能够通过相应的方法对图像的色彩域的分布进行自适应的调整,不仅能够增加训练数据的多样性,同时还能够大大提高行人重识别模型对于不同数据的适应性。
技术实现思路
[0005]本专利技术的目的是针对当前大多数行人重识别技术只能够通过现有几个行人数据集来训练模型,不能适应现实生活中千变万化的光照场景,从而导致模型对于不同数据的适应性较差的问题,提出一种基于图像色域分布调整的文本行人重识别方法,可增加训练数据的多样性,提高模型的对于不同数据的适应 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于图像色域分布自适应调整的文本行人重识别算法,其特征在于,所述方法包括以下步骤:步骤1、通过图像色域分布自适应调整模块对输入图像的色彩域进行自适应调整;步骤2、使用图
‑
文预训练方法得到所述行人的文本特征向量E与视觉特征图F;步骤3、将前述行人文本特征向量E与视觉特征图F通过监督学习的方式进行处理,获取文本与视觉的全局与局部特征;步骤4、将前述多模态特征通过信息投影模块得到彼此模态的信息,计算相似度,进行模型训练,得到训练模型;步骤5、利用所述训练模型结合目标行人的文本描述和待识别行人进行行人重识别,从而得到行人重识别结果;所述的图像色彩域分布自适应调整模块包含3个主要参数;所述的图
‑
文预训练方法包含1个视觉编码器,1个文本编码器;所述行人重识别方法包括1个全局特征提取网络和1个局部特征提取网络。2.根据权利要求1步骤1所述行人重识别方法,其特征在于,所述的图像色域分布调整模块(D2AVM)包含3个主要参数,分别对图像的光照、对比度、色温进行自适应的调整,得到变化后的图像:I
v
=D2AVM(I
o
)其中I
o
为原始图片,I
v
为经过图像色域分布调整模块处理过后的图片。3.根据权利要求1步骤2所述的图
‑
文预训练方法,其特征在于,所述视觉编码器为1个增加1个归一化层,同时在变形操作之前加入位置编码的Vision Transformer模型,继而得到视觉特征图F:F=IE(I
v
)其中IE为视觉编码器,本算法中采用改进的Vision Transformer模型。4.根据权利要求1步骤2所述的图
‑
文预训练方法,其特征在于,所述文本编码器为1个包含有多头注意力机制的Bert模型与1个双向LSTM模块,继而得到文本特征向量E:E=TE(S)其中,TE为文本编码器,本算法中采用改进的Bert模型与双向LSTM模块,S为未处理的文本描述。5.根据权利要求1步骤3所述行人重识别方法,其特征在于,通过所述全局特征提取网络可获得两模态全局特征,在提取文本全局特征时进行池化(RMP)与卷积(W
g
)操作,文本全局特征为:t
g
=W
g
RMP(E)在提取视觉全局特征时进行池化(GMP)与卷积(W
g
),视觉全局特征为:v
g
=W
g
GMP(F) 。6.根据权利要求1步骤3所述行人重识别方法,其特征在于,通过所述局部特征提取网络可获得两模态局部特征,在提取文本局部特征时进行池化与卷积(W
技术研发人员:薛敬祎,朱艾春,王子杰,胡方强,李义丰,
申请(专利权)人:南京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。