【技术实现步骤摘要】
一种基于图像文本双通道联合的行人重识别方法
[0001]本专利技术涉及一种基于图像文本双通道联合的行人重识别方法,属于计算机视觉与智能信息
技术介绍
[0002]2006年,Gheissari等人第一次提出了行人重识别的概念,其被当作跨摄像头多目标跟踪下的子问题进行研究,即如何在跨摄像头中利用行人特征的相似度进行轨迹关联。目前重识别的方法大都使用表征学习和度量学习。典型的重识别中通常使用全局特征表示行人特征表征,计算其ID损失,并通过度量特征之间的距离对行人进行排序。
[0003]在现实场景中,由于行人可能具有相似的外观,以及存在视角不同和遮挡的问题,导致检索的准确率并不高,为了提高模型性能,就要求行人重识别模型能够捕捉到充足的细节信息。然而基于全局特征的特征表征表现力有限,很难突出更具有价值的细节信息,面对遮挡、分辨率低等问题时检索效果通常不太理想,因此一些基于局部特征的方法被提出来解决这些问题。另外由于真实场景中,视角变化、配饰变化显著,需要更多额外的信息进行补充以实现对模型的优化,因此也有一些基于辅助 ...
【技术保护点】
【技术特征摘要】
1.一种基于图像文本双通道联合的行人重识别方法,其特点包括以下步骤:(1)构建图像通道,使用Resnet50作为基准网络提取特征,并在最后一层提取出特征后构建图像通道的全局分支和局部分支,分别计算全局分支和局部分支的ID损失;(2)构建文本通道,使用Simple Recurrent Units(SRU)作为骨架网络提取文本特征,将文本特征经过BN层归一化后用于ID损失的计算;(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,对联合特征进行优化,计算其三元组损失,实现文本特征对视觉特征的辅助优化;(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。2.根据权利要求1所述的方法,其特点在于步骤(1)中构建具有全局分支和局部分支的图像通道,构建方法如下:使用在ImageNet上进行了预训练的CNN模型,CNN模型的主干网络由ResNet50网络构成,将Resnet50的最后一个下采样模块的步幅由2变为1,得到具有更多信息的特征f
h
,将特征f
h
送入局部特征分支进行分割得到六块局部特征,对这六块局部特征分别计算其ID损失;将f
h
送入全局特征分支,通过全局平均池化后得到用于计算三元组损失的特征f
g
,对f
g
进行归一化操作得到f
j
用于全局特征的ID损失计算。3.根据权利要求1所述的方法,其特点在于步骤(2)中构建文本通道,构建方法如下:使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征f
d
用于三元组损失的计算,之后对f
d
进行归一化操作得到f
t
用于文本特征的ID损失计算,对于输入图像或文本以及其...
【专利技术属性】
技术研发人员:何小海,齐宝光,刘强,陈洪刚,吴晓红,吴小强,滕奇志,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。