一种基于区域扩增和位置信息交互的视频行人重识别方法技术

技术编号：38839847 阅读：15 留言：0更新日期：2023-09-17 09:54

本发明专利技术请求保护一种基于区域扩增和位置信息交互的视频行人重识别方法，属于图像检索方法。包括以下步骤：数据切片及预处理；然后使用通道注意模块进行通道权值重建；接着提取前帧的显著特征，进一步将后帧的关注区域从显著到全面进行过渡；然后利用位置信息交互(LII)模块促进位置信息跨所有帧交互，以实现帧之间的相互增强；最后根据模型设计损失函数并进行训练，值得注意的是，在测试阶段，去除LII模块以提升推理速度。本发明专利技术提出了轻量化的视频行人重识别模型，在多个公共基准上展现了强大的性能和泛化能力。性能和泛化能力。性能和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于区域扩增和位置信息交互的视频行人重识别方法

[0001]本专利技术涉及一种图像检索方法，尤其涉及一种基于区域扩增和位置信息交互的视频行人重识别方法。

技术介绍

[0002]行人重识别(Re
‑
id)任务旨在检索跨监控区域的特定行人，是智能监控、安全城市和形事侦查等高级别应用中的一项重要技术。基于视频的Re
‑
id任务输入为连续
[0003]视频序列，可以提供基于时序变化的更全面的线索信息，但复杂的光照、背景以及遮挡等干扰阻碍了其进一步发展。虽然在过去几年中，视频行人重识别相关任务在CNN的协助下取得了良好的进展。但如何有效的利用视频帧之间丰富的时间信息，仍然是一项挑战。
[0004]最近，一些方法利用自注意力机制和图卷积网络促进视频帧之间的信息流，这样得到的帧级特征虽然更加丰富且更具有判别力，在测试中也得到了较为先进的结果，但其仍存在一些缺陷。
[0005]首先，对于单帧图像，关注区域通常会集中在一个显著但局部的区域，当一个模型只关注判别行人的部分区域时，对其他的细粒度信息的关注就会减弱，这就导致了单个特征的表达能力受限。显然，对于一个稳健的Re
‑
ID模型，应该尽量避免这种特性。扩大关注区域以得到给定行人的完整特征，对于进一步提高模型判别能力和鲁棒性至关重要。
[0006]其次，这些方法将时间关系视为跨所有帧的相互增强或同质信息流。通过这种方式，帧级特征嵌入将更加丰富，因为他们包含来自其他帧的相互增强的信息。然而，这种增强...

【技术保护点】

【技术特征摘要】
1.一种基于区域扩增和位置信息交互的视频行人重识别方法，其特征在于，包括以下步骤：步骤1：对输入视频基准数据进行切片，然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平或垂直翻转以及随机填充在内的预处理操作；步骤2：对于原始输入特征利用通道注意层CAL进行处理，用于进行通道权值重建，过滤错误以及无意义的通道；步骤3：在经过CAL之后，提取前帧的显著特征，其中P为经过CAL处理后的0到s的特征映射集合，s为步骤1中切片位置，提取的特征将用于抑制后续帧级特征的显著信息；步骤4：利用生成的特征来抑制中已经在P中激活的显著区域，其中Q为经过CAL处理后的s到t
‑
1的特征映射集合，t为输入帧总数，使得其后的帧级特征关注更加宽泛的细粒度信息，获得更完整的特征表示；步骤5：将信息从传递到其中X为初始输入张量，Y为最终生成的特征抑制图；步骤6：集成和分发帧信息的全局特性，建立时空维度任意两个位置之间的连接，使信息能够跨所有帧传递的同时实现帧之间的相互增强；步骤7：根据模型设定设计损失函数来指导训练过程；步骤8：在训练阶段，通过步骤1
‑
7的操作实现特征间的信息交互以及从显著到全面的过渡，来辅助骨干ResNet
‑
50训练，在测试阶段，放弃部分分支以提升推算速率，保证模型轻量化，最后计算mAP和Rank以评估模型性能。2.根据权利要求1所述的一种基于区域扩增和位置信息交互的视频行人重识别方法，其特征在于，所述步骤1具体为：从显著到全面过渡SFT框架的输入有两项，分别为特征映射以及分割位置；对于特征映射，SFT采用了具有详细语义信息的中层特征映射；给定一个切片包含t帧，利用骨干的Res
‑
Net50网络获得中间层特征映射这里的c代表通道数，h代表高度，w代表宽度；对于分割位置s，它决定了前帧和后帧中哪些帧需要被抑制，即SFT会捕捉X
0,
…
,s
‑1中的显著特征，抑制后帧X
s,
…
,t
‑1中的显著特征；然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平(垂直)翻转以及随机填充在内的预处理操作，其中随机填充是新提出的数据增强方法；具体而言，原始图像尺寸为C
×
W
×
H，生成的噪声图像的尺寸为C
×
(d
×
W)
×
(d
×
H)，其中d是在(1,1+r)范围内生成的一个随机数，r代表常数，然后将原始图像叠加到噪声图像的随机位置，最后使用Resize操作缩小至原始图像大小作为输入。3.根据权利要求2所述的一种基于区域扩增和位置信息交互的视频行人重识别方法，其特征在于，所述步骤2具体为：SFT的第一个模块是通道注意模块，目的是过滤掉误导和无意义的通道；生成通道权重如下：
其中是的级联，X
no
‑
pad
是X的子区域，没有第一和最后行/列，GAP是全局平均池化层，W
c
是对每个通达中心性的估计，即关注中心前景信息的通道赋值为1，其他通道赋值为0；通道注意模块还用ECA
‑
Net来建立相邻通道的关系信息；结果是一个c维向量W
e
，表示每个通道的权重；通过对输入特征映射应用W
c
和W
e
，CAL将返回更集中，更有意义的特征映射；根据分割位置s将返回特征映射重命名为和和4.根据权利要求3所述的一种基于区域扩增和位置信息交互的视频行人重识别方法，其特征在于，所述步骤3具体为：在通道注意模块之后，SFT生成一个k*k的卷积核，k表示核大小，以更多的包含的显著信息，具体操作如下：输入张量为由拼接而来，然后利用多头注意力机制针对每个位置的重要性进行加权，并返回注意图为进一步增加注意图的多样性和信息丰富度，需要避免A
P
的崩溃，为此，在k2维和s
×
h
×
w维依次采用L1
‑
Normalization，将特征图和注意力图通过矩阵乘法得到k*k大小的卷积核为简洁起见，P和A
P
暂时被重塑为和其中u＝s
×
h
×
w。5.根据权利要求4所述的一种基于区域扩增和位置信息交互的视频行人重识别方法，其特征在于，所述步骤4具体为：在该部分，利用上述生成的核来抑制中已经在P中激活的显著区域，之后的帧可以关注更广泛的区域，获得更加完整的特征表示；首先，对输入特征Q
i
和大...

【专利技术属性】
技术研发人员：唐贤伦，陆斌宇，邓武权，王乐君，钱小东，万辉，黄健，李伟生，徐梓辉，陈霸东，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人