带双模态难挖掘三元-中心损失的行人重识别方法及系统技术方案

技术编号:26792338 阅读:35 留言:0更新日期:2020-12-22 17:07
本申请公开了带双模态难挖掘三元‑中心损失的行人重识别方法及系统,将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;将得到的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间使用带双模态难挖掘三元‑中心损失函数进行优化;计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的距离,将距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。

【技术实现步骤摘要】
带双模态难挖掘三元-中心损失的行人重识别方法及系统
本申请涉及可视-红外行人重识别领域和深度学习
,特别是涉及带双模态难挖掘三元-中心损失的行人重识别方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。行人重识别是跨不同的摄像机视点来检索目标行人,是计算机视觉社区的一个热门研究方向。它可以作为人脸识别技术的重要补充,并在视频监控系统中发挥重要作用。在过去的几年里,学者们对行人重识别的研究主要集中在可视领域,其中行人图像是由可视光相机拍摄的。但在现实生活中,当光线较暗时,可视光相机却无法捕捉到包含有效信息的行人图片。因此,能够在光线昏暗时捕捉有效行人图像的红外摄像机得到了广泛的应用。可视-红外行人重识别问题也就应运而生。可视-红外行人重识别就是根据给定的检索目标的可见光(红外)图像,从由红外(可视光)图像构成的画廊中搜索目标行人。它与可视-可视行人重识别最大的区别在于,本申请需要跨异质模态搜索行人图像。因为可见光摄像机和红外摄像机的反射光谱存在差异,所以捕获的可视图片和红外图片的信息容量和表示形式完全不同。此外,专利技术人还发现,不同数据集的红外模态图片也不尽相同。SYSU-MM01数据集包含近红外图像,它们具有相对清晰的轮廓并保留了一些细节信息。但RegDB数据集包含的是远红外图像,它们仅具有模糊的轮廓。此外,可视-红外行人重识别还遭受着传统的可视-可视行人重识别中存在的问题,例如摄像机视角变化,行人姿势变化和遮挡等,现有技术中对行人重识别的精准度有待提升。
技术实现思路
为了解决现有技术的不足,本申请提供了带双模态难挖掘三元-中心损失的行人重识别方法及系统;第一方面,本申请提供了带双模态难挖掘三元-中心损失的行人重识别方法;带双模态难挖掘三元-中心损失的行人重识别方法,包括:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。第二方面,本申请提供了带双模态难挖掘三元-中心损失的行人重识别系统;带双模态难挖掘三元-中心损失的行人重识别系统,包括:局部特征提取模块,其被配置为:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;投影模块,其被配置为:将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;行人重识别模块,其被配置为:计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。与现有技术相比,本申请的有益效果是:本申请设计了一个新颖的双模态难挖掘三元-中心损失(DTCL)。它可以有效地继承三元组损失和中心损失的优点,即有效地在减小类内距离的同时增加类间距离,并挖掘难三元组,减少计算开销。双模态难挖掘三元-中心损失分别为每个类计算两个模态中心。它约束了样本与同类的异质/同质模态中心的距离小于样本与不同类的异质/同质模态中心的最小距离。本申请还设计了一种双路径的基于局部的特征学习网络(DPFLN)来提取局部特征,以解决可视-红外行人重识别的模态差异问题。该模型分为可视支路和红外支路,它们分别用来处理两种模态下的异质图像。本申请采用Resnet-50作为各支路的主干网络,然后使用卷积平均池化层将每一条支路的骨干网络输出的特征图从上到下均匀地划分为若干水平条。随后,两个分支中对应位置的水平条被输入到权重共享的全连通层中,它将特定模态映射到一个共同的特征表示空间中。本申请结合三元组损失和中心损失的优点,提出了一种新型的双模态难挖掘三元-中心(DTCL)。它可以优化类内距离和类间距离,使得相同身份行人的特征表示相互靠近,将不同身份行人的特征表示推远。它还能挖掘难样本并减少计算代价。本申请还提出了一种简单但有效的双路径基于局部的特征学习网络(DPFLN),能够从两种不同的模态中提取具有鉴别性的行人的局部特征。本申请联合使用DTCL和交叉熵损失来监督DPFLN的训练过程。本申请在两个公开数据集上进行了实验,结果表明本申请的方法对可视-红外行人重识别任务的有效性。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的方法流程图;图2为第一个实施例的网络架构示意图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。另外,为了便于清楚描本文档来自技高网
...

【技术保护点】
1.带双模态难挖掘三元-中心损失的行人重识别方法,其特征是,包括:/n将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;/n将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;/n计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。/n

【技术特征摘要】
1.带双模态难挖掘三元-中心损失的行人重识别方法,其特征是,包括:
将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。


2.如权利要求1所述的方法,其特征是,双路径基于局部的特征学习网络;网络结构包括:并列的可视光支路和红外支路;
所述可视光支路,采用第一改进的Resnet-50网络结构来实现;所述第一改进的Resnet-50网络结构后面依次连接第一平均池化层、第一全连接层和第一批归一化层;所述可视光支路的输入值为可视光图像,第一平均池化层输出可视光图像的局部特征;可视光图像的局部特征通过第一全连接层和第一批归一化层处理后,映射到公共特征表示空间中;
所述红外支路,也采用第二改进的Resnet-50网络结构来实现;所述第二改进的Resnet-50网络结构后面也依次连接第二平均池化层、第二全连接层和第二批归一化层;所述红外支路的输入值为红外图像,第二平均池化层输出红外图像的局部特征;红外图像的局部特征通过第二全连接层和第二批归一化层处理后,也映射到公共特征表示空间中;
公共特征表示空间将可视光图像的局部特征和红外图像的局部特征进行拼接,得到融合后的特征;
所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,是一样的;所述第一改进的Resnet-50网络结构,是指在Resnet-50网络结构的基础上,去掉最后一个平均池化层及其后续结构;
所述第一全连接层与第二全连接层是共享权重的。


3.如权利要求2所述的方法,其特征是,所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,均是预先训练好的网络结构。


4.如权利要求1或2所述的方法,其特征是,所述公共特征表示空间采用双模态难挖掘三元-中心损失函数和交叉熵损失函数来进行优化。


5.如权利要求4所述的方...

【专利技术属性】
技术研发人员:张化祥蔡鑫刘丽朱磊于治楼
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1