【技术实现步骤摘要】
一种基于区域扩增和位置信息交互的视频行人重识别方法
[0001]本专利技术涉及一种图像检索方法,尤其涉及一种基于区域扩增和位置信息交互的视频行人重识别方法。
技术介绍
[0002]行人重识别(Re
‑
id)任务旨在检索跨监控区域的特定行人,是智能监控、安全城市和形事侦查等高级别应用中的一项重要技术。基于视频的Re
‑
id任务输入为连续
[0003]视频序列,可以提供基于时序变化的更全面的线索信息,但复杂的光照、背景以及遮挡等干扰阻碍了其进一步发展。虽然在过去几年中,视频行人重识别相关任务在CNN的协助下取得了良好的进展。但如何有效的利用视频帧之间丰富的时间信息,仍然是一项挑战。
[0004]最近,一些方法利用自注意力机制和图卷积网络促进视频帧之间的信息流,这样得到的帧级特征虽然更加丰富且更具有判别力,在测试中也得到了较为先进的结果,但其仍存在一些缺陷。
[0005]首先,对于单帧图像,关注区域通常会集中在一个显著但局部的区域,当一个模型只关注判别行人的部分区域时,对其他的细粒度信息的关注就会减弱,这就导致了单个特征的表达能力受限。显然,对于一个稳健的Re
‑
ID模型,应该尽量避免这种特性。扩大关注区域以得到给定行人的完整特征,对于进一步提高模型判别能力和鲁棒性至关重要。
[0006]其次,这些方法将时间关系视为跨所有帧的相互增强或同质信息流。通过这种方式,帧级特征嵌入将更加丰富,因为他们包含来自其他帧的相互增强的信息。然而,这种增强 ...
【技术保护点】
【技术特征摘要】
1.一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,包括以下步骤:步骤1:对输入视频基准数据进行切片,然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平或垂直翻转以及随机填充在内的预处理操作;步骤2:对于原始输入特征利用通道注意层CAL进行处理,用于进行通道权值重建,过滤错误以及无意义的通道;步骤3:在经过CAL之后,提取前帧的显著特征,其中P为经过CAL处理后的0到s的特征映射集合,s为步骤1中切片位置,提取的特征将用于抑制后续帧级特征的显著信息;步骤4:利用生成的特征来抑制中已经在P中激活的显著区域,其中Q为经过CAL处理后的s到t
‑
1的特征映射集合,t为输入帧总数,使得其后的帧级特征关注更加宽泛的细粒度信息,获得更完整的特征表示;步骤5:将信息从传递到其中X为初始输入张量,Y为最终生成的特征抑制图;步骤6:集成和分发帧信息的全局特性,建立时空维度任意两个位置之间的连接,使信息能够跨所有帧传递的同时实现帧之间的相互增强;步骤7:根据模型设定设计损失函数来指导训练过程;步骤8:在训练阶段,通过步骤1
‑
7的操作实现特征间的信息交互以及从显著到全面的过渡,来辅助骨干ResNet
‑
50训练,在测试阶段,放弃部分分支以提升推算速率,保证模型轻量化,最后计算mAP和Rank以评估模型性能。2.根据权利要求1所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤1具体为:从显著到全面过渡SFT框架的输入有两项,分别为特征映射以及分割位置;对于特征映射,SFT采用了具有详细语义信息的中层特征映射;给定一个切片包含t帧,利用骨干的Res
‑
Net50网络获得中间层特征映射这里的c代表通道数,h代表高度,w代表宽度;对于分割位置s,它决定了前帧和后帧中哪些帧需要被抑制,即SFT会捕捉X
0,
…
,s
‑1中的显著特征,抑制后帧X
s,
…
,t
‑1中的显著特征;然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平(垂直)翻转以及随机填充在内的预处理操作,其中随机填充是新提出的数据增强方法;具体而言,原始图像尺寸为C
×
W
×
H,生成的噪声图像的尺寸为C
×
(d
×
W)
×
(d
×
H),其中d是在(1,1+r)范围内生成的一个随机数,r代表常数,然后将原始图像叠加到噪声图像的随机位置,最后使用Resize操作缩小至原始图像大小作为输入。3.根据权利要求2所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤2具体为:SFT的第一个模块是通道注意模块,目的是过滤掉误导和无意义的通道;生成通道权重如下:
其中是的级联,X
no
‑
pad
是X的子区域,没有第一和最后行/列,GAP是全局平均池化层,W
c
是对每个通达中心性的估计,即关注中心前景信息的通道赋值为1,其他通道赋值为0;通道注意模块还用ECA
‑
Net来建立相邻通道的关系信息;结果是一个c维向量W
e
,表示每个通道的权重;通过对输入特征映射应用W
c
和W
e
,CAL将返回更集中,更有意义的特征映射;根据分割位置s将返回特征映射重命名为和和4.根据权利要求3所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤3具体为:在通道注意模块之后,SFT生成一个k*k的卷积核,k表示核大小,以更多的包含的显著信息,具体操作如下:输入张量为由拼接而来,然后利用多头注意力机制针对每个位置的重要性进行加权,并返回注意图为进一步增加注意图的多样性和信息丰富度,需要避免A
P
的崩溃,为此,在k2维和s
×
h
×
w维依次采用L1
‑
Normalization,将特征图和注意力图通过矩阵乘法得到k*k大小的卷积核为简洁起见,P和A
P
暂时被重塑为和其中u=s
×
h
×
w。5.根据权利要求4所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤4具体为:在该部分,利用上述生成的核来抑制中已经在P中激活的显著区域,之后的帧可以关注更广泛的区域,获得更加完整的特征表示;首先,对输入特征Q
i
和大...
【专利技术属性】
技术研发人员:唐贤伦,陆斌宇,邓武权,王乐君,钱小东,万辉,黄健,李伟生,徐梓辉,陈霸东,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。