一种基于跨维度交互注意力的跨模态行人重识别方法技术

技术编号：40741770 阅读：3 留言：0更新日期：2024-03-25 20:01

本发明专利技术公开了一种基于跨维度交互注意力的跨模态行人重识别方法，包括对P*K张可见光图像进行灰度化处理获得灰度图像，将获得的P*K张灰度图像和P*K张红外图像输入至特征提取网络，利用ResNet50网络和基于跨维度交互的注意力块，根据输入的图像生成富含信息的图片特征，通过group损失函数和id损失函数，训练出性能良好的网络，若达到指定的训练轮数，则结束训练，否则继续完成训练，利用跨维度交互注意力机制，发掘维度之间的信息交互，更大幅度地提升了模型的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能和计算机视觉，特别涉及一种基于跨维度交互注意力的跨模态行人重识别方法。

技术介绍

1、随着社会经济快速发展，公共安全愈发重要。当前，视频监控设备已经遍布日常生活各个角落，但对监控信息的利用还停留在比较原始的阶段。当出现紧急情况时，如若采用人工查看监控录像的方法去识别和检索，非常费时费力；而且在拍摄环境较差的情况下，使用肉眼分辨的准确度也不高。因此，业内开始了对行人重识别(person re-identification,re-id)技术的研究，这是智能安防中的关键技术之一。

2、行人重识别是从大量摄像机拍的行人图像中，识别出特定的行人，以满足各类应用场景下的寻人需求。由于该任务功能强大，所以现实生活中应用非常广泛，比如危险预警、无人超市、走失救助等相当广阔的应用场景。

3、早期的行人重识别仅面向可见光行人图像，然而，实际应用中，仅依靠单模态行人重识别技术远不能满足各类应用场景下的需求。在光照条件较差的情况下，可见光摄像头无法获取到清晰的行人图像，如若仍使用单模态行人重识别技术，识别准确率急剧下降。为此，监控设备进行了升级，新型的监控设备同时配备了可见光模态和红外模态的摄像头，可以根据光照条件自适应地切换拍摄模式，克服光照条件的限制。

4、但这样同时也引入了新的问题，即需要同时处理两种模态的图像，大大增加了原先单模态行人重识别任务的难度，因此，为了能使行人重识别能在许多场景下使用，学术界开始兴起了对“可见光-红外”跨模态行人重识别技术(visible-infrared pe

5、图1所示的是2017年的论文《rgb-infrared cross-modality person re-identification》提出的数据集sysu-mm01内的部分的行人图像，sysu-mm01数据集是第一个专门服务于跨模态行人重识别任务的数据集。其中摄像头1、2拍摄的是室内可见光行人图像，摄像头4、5拍摄的是室外可见光行人图像，摄像头3、6拍摄的则为行人的红外图像。sysu-mm01的训练集共有395个行人身份，其中可见光图像有22258张，红外图像有11909张。测试集则由另外的96位行人的图像构成，并且分为两种评价模式，分别为全搜索模式(all-search)和室内搜索模式(indoor-search)。

6、图2所示的是2017年的论文《unlabeled samples generated by gan improvethe person re-identification baseline in vitro》提出的数据集regdb内的部分的行人图像，regdb数据集是数据集清晰度差，行人姿势变化幅度小，且与实际应用场景有较大的区别，因此识别难度较低。该数据集一共包含412位行人，每个行人拥有10张可见光图像和10张红外图像。实验随机选取其中206位行人对应的2060张可见光图像和2060张近红外图像用于训练，剩余的206位行人的图像用于测试，并且通常设置可见光图像检索红外图像(visible-to-thermal)以及红外图像检索可见光图像(thermal-to-visible)两种检索模式。

7、根据图示我们可以看到，即便是同一个人，由于处于不同的模态，再加上拍摄角度不同、行人姿势不同、背景环境不同以及遮挡等原因，呈现出较大的差异。

8、近年来，许多跨模态行人重识别方法被提出。如论文3《visible thermal personre-identification via dual-constrained top-ranking》提出了一种双方向双重约束损失的双流网络(bdtr)，设计了双约束排序损失，缓解了跨模态差异，并利用身份损失，缩小类内距离，达到同时处理模态内部和跨模态差异的目的。虽然该模型注意到了模态内部和跨模态差异，但该模型仍然没有注意到维度之间的信息交互，使用的仍然是最普通的triplet损失函数。其模型结构如图3所示。

9、对于目前仍然没有注意到维度之间信息的交互的技术不足，本专利技术提出了一种基于跨维度交互注意力的跨模态行人重识别方法。

技术实现思路

1、专利技术目的：为了克服现有技术中存在的不足，本专利技术提供一种基于跨维度交互注意力的跨模态行人重识别方法，利用跨维度交互注意力机制，发掘维度之间的信息交互，更大幅度地提升了模型的识别准确率。

2、技术方案：为实现上述目的，本专利技术的技术方案如下：

3、一种基于跨维度交互注意力的跨模态行人重识别方法，包括以下步骤：

4、步骤1：对p*k张可见光图像进行灰度化处理获得灰度图像，进入步骤2；

5、步骤2：将步骤1中获得的p*k张灰度图像和p*k张红外图像输入至特征提取网络，进入步骤3；

6、步骤3：利用resnet50网络和基于跨维度交互的注意力块，根据步骤2中输入的图像生成富含信息的图片特征，进入步骤4；

7、步骤4：通过group损失函数和id损失函数，训练出性能良好的网络，进入步骤5；

8、步骤5：若达到指定的训练轮数，则进行步骤6，否则继续完成训练，返回步骤1；

9、步骤6：结束。

10、进一步的，所述步骤2包括以下步骤：

11、步骤2-1：将灰度图像输入特征提取网络，用来提取它的初步特征；

12、步骤2-2：将红外图像输入特征提取网络，用来提取它的初步特征；

13、步骤2-3：输出特征。

14、进一步的，所述步骤3包括以下步骤：

15、步骤3-1：将步骤2获得的特征输入由resnet50后四层的卷积层和基于跨维度交互注意力块组成的网络中，获得富含信息的图片特征；

16、步骤3-2：将步骤3-1获得的图片特征经过m-pooling层，进入步骤3-3；

17、步骤3-3：输出图片的池化特征。

18、进一步的，步骤3中以基于跨维度交互的注意力块的形式，内嵌在resnet50网络中，充分感知不同维度间信息，增强特征维度之间的联系，挖掘维度间的信息。

19、进一步的，所述步骤4中，对特征采用m-pooling进行池化，其中m-pooling模块为平均池化、最大池化、取均值以及取最大值四类操作的组合，分别得到和，并按最后一维进行拼接得到。

20、进一步的，在步骤4中，同时用group损失函数和id损失函数共同约束模型，具体步骤如下：

21、步骤4-1：将步骤3中提取到的池化特征输入至group损失函数；

22、步骤4-2：将步骤3中提取到的特征进行bn层归一化；

23、步骤4-3：将步骤4-2中归一化的特征经过全连接层，降低信息的维度的同时，获得与类别对应的维度信息，进入步骤4-4；

24、步骤4-4：再将特征输入本文档来自技高网...

【技术保护点】

1.一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤2包括以下步骤：

3.根据权利要求1所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤3包括以下步骤：

4.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：步骤3中以基于跨维度交互的注意力块的形式，内嵌在ResNet50网络中，充分感知不同维度间信息，增强特征维度之间的联系，挖掘维度间的信息。

5.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤4中，对特征采用M-pooling进行池化，其中M-pooling模块为平均池化、最大池化、取均值以及取最大值四类操作的组合，分别得到和，并按最后一维进行拼接得到。

6.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：在步骤4中，同时用group损失函数和id损失函数共同约束模型，具体步骤如下：

7.根据权利要求1所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：对提取到的行人特征计算组内样本间的距离，不同组别代表不同的行人身份：将样本对距离计算转换成先算均值、然后计算方差，则组内损失可表示为公式(3)：

8.根据权利要求7所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：在扩大组间距离的同时，约束各组别的组内方差保持不变，则组间损失为公式(4)：

9.根据权利要求8所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：在id损失在训练时，在训练集中选取P个身份，从每个身份中随机选取K张行人图像，每一个Batch内有2P*K张行人图像，则对行人重识别任务的身份损失如公式(5)：

10.根据权利要求8所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：通过网络总损失函数Loverall对网络加以限制，最终的网络总损失函数Loverall如公式(6)：

...

【技术特征摘要】

1.一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤2包括以下步骤：

3.根据权利要求1所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤3包括以下步骤：

4.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：步骤3中以基于跨维度交互的注意力块的形式，内嵌在resnet50网络中，充分感知不同维度间信息，增强特征维度之间的联系，挖掘维度间的信息。

5.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：所述步骤4中，对特征采用m-pooling进行池化，其中m-pooling模块为平均池化、最大池化、取均值以及取最大值四类操作的组合，分别得到和，并按最后一维进行拼接得到。

6.根据权利要求3所述的一种基于跨维度交互注意力的跨模态行人重识别方法，其特征在于：在步骤4中，同...

【专利技术属性】
技术研发人员：王进，吕泽，江锴威，芦欣，
申请(专利权)人：南通理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人