一种基于区域扩增和位置信息交互的视频行人重识别方法技术

技术编号:38839847 阅读:15 留言:0更新日期:2023-09-17 09:54
本发明专利技术请求保护一种基于区域扩增和位置信息交互的视频行人重识别方法,属于图像检索方法。包括以下步骤:数据切片及预处理;然后使用通道注意模块进行通道权值重建;接着提取前帧的显著特征,进一步将后帧的关注区域从显著到全面进行过渡;然后利用位置信息交互(LII)模块促进位置信息跨所有帧交互,以实现帧之间的相互增强;最后根据模型设计损失函数并进行训练,值得注意的是,在测试阶段,去除LII模块以提升推理速度。本发明专利技术提出了轻量化的视频行人重识别模型,在多个公共基准上展现了强大的性能和泛化能力。性能和泛化能力。性能和泛化能力。

【技术实现步骤摘要】
一种基于区域扩增和位置信息交互的视频行人重识别方法


[0001]本专利技术涉及一种图像检索方法,尤其涉及一种基于区域扩增和位置信息交互的视频行人重识别方法。

技术介绍

[0002]行人重识别(Re

id)任务旨在检索跨监控区域的特定行人,是智能监控、安全城市和形事侦查等高级别应用中的一项重要技术。基于视频的Re

id任务输入为连续
[0003]视频序列,可以提供基于时序变化的更全面的线索信息,但复杂的光照、背景以及遮挡等干扰阻碍了其进一步发展。虽然在过去几年中,视频行人重识别相关任务在CNN的协助下取得了良好的进展。但如何有效的利用视频帧之间丰富的时间信息,仍然是一项挑战。
[0004]最近,一些方法利用自注意力机制和图卷积网络促进视频帧之间的信息流,这样得到的帧级特征虽然更加丰富且更具有判别力,在测试中也得到了较为先进的结果,但其仍存在一些缺陷。
[0005]首先,对于单帧图像,关注区域通常会集中在一个显著但局部的区域,当一个模型只关注判别行人的部分区域时,对其他的细粒度信息的关注就会减弱,这就导致了单个特征的表达能力受限。显然,对于一个稳健的Re

ID模型,应该尽量避免这种特性。扩大关注区域以得到给定行人的完整特征,对于进一步提高模型判别能力和鲁棒性至关重要。
[0006]其次,这些方法将时间关系视为跨所有帧的相互增强或同质信息流。通过这种方式,帧级特征嵌入将更加丰富,因为他们包含来自其他帧的相互增强的信息。然而,这种增强会导致单帧之间更加相似,甚至冗余。相似性和冗余不仅牺牲了帧间的差异,而且会限制最终时间融合阶段的进一步改进。因此,需要从其他角度利用时间线索放大时间差异,鼓励信息跨所有帧传递。
[0007]CN112836646B,一种基于通道注意力机制的视频行人重识别方法及应用,该方法步骤包括:视频采样图像进行预处理后输入到卷积神经网络,分别提取得到N个图像特征图,经时间池化得到临时视频级特征图;将临时视频级特征图输入到通道注意力模块,输出特征向量;将特征向量在高度和宽度上扩展填充,得到注意力矩阵,将注意力矩阵分别与原N个特征图逐元素相乘,得到被修饰的N个特征图;并依次经过时间、空间池化,得到视频级特征向量,加上分类器得到分类结果,对分类结果计算交叉熵损失,对整个模型训练优化;训练后的行人重识别模型进行行人重识别应用。
[0008]CN112836646B,一种基于通道注意力机制的视频行人重识别方法及应用。在该专利中,将所有输入特征进行时间池化得到一个临时的视频级特征,如果输入特征中存在严重遮挡或者错位,单一的视频级特征将会失去效力,并影响后续特征的学习;在构建通道注意力模块时,将通道特征降维再升维,会破坏通道间的直接对应关系;在设计损失函数时,交叉熵损失利于学习类间的信息,因为它采用了类间竞争机制,但是它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较分散。此外,该专利整体结构简洁,在遇到复杂基准时,鲁棒性较差。
[0009]在本专利中,对于通道注意模块的设计,通过简单的赋值操作使得通道特征更加关注中心前景信息,然后通过一维卷积建立相邻通道的关系信息,轻量化的同时更加准确;在损失函数部分,采用交叉熵损失L
cent
和三元组损失L
tri
来共同指导训练过程,此外,为了保持帧之间的多样性,利用互信息损失L
mi
来最小化不同帧的嵌入的相互信息,进一步提升整体性能;在整体设计上,通过显著信息促使网络关注更加全面的区域,获取更加翔实准确的特征,最后去除部分模块以保证模型轻量化。这些都是上述专利所没有考虑到的。

技术实现思路

[0010]本专利技术旨在解决以上现有技术的问题。提出了一种基于区域扩增和位置信息交互的视频行人重识别方法。本专利技术的技术方案如下:
[0011]一种基于区域扩增和位置信息交互的视频行人重识别方法,其包括以下步骤:
[0012]步骤1:对输入视频基准数据按照模型设定进行切片,然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平(垂直)翻转以及随机填充在内的预处理操作;
[0013]步骤2:对于原始输入特征利用通道注意层(Channel Attention Layer,CAL)处理,其目的是进行通道权值重建,过滤错误以及无意义的通道,提升特征表达能力;
[0014]步骤3:在CAL之后,提取前帧的显著特征,其中P为经过CAL处理后的0到s的特征映射集合,s为步骤1中切片位置,提取的特征将用于抑制后续帧级特征的显著信息;
[0015]步骤4:利用上述生成的特征来抑制中已经在P中激活的显著区域,其中Q为经过CAL处理后的s到t

1的特征映射集合,t为输入帧总数,使得其后的帧级特征可以关注更加宽泛的细粒度信息,获得更完整的特征表示;
[0016]步骤5:将信息从传递到其中X为初始输入张量,Y为最终生成的特征抑制图,以提高特征的表达能力;
[0017]步骤6:集成和分发帧信息的全局特性,建立时空维度任意两个位置之间的连接,使信息能够跨所有帧传递的同时实现帧之间的相互增强;
[0018]步骤7:根据模型设定设计损失函数来指导训练过程;
[0019]步骤8:在训练阶段,通过上述操作实现特征间的信息交互以及从显著到全面的过渡,来辅助骨干ResNet

50训练,在测试阶段,放弃部分分支以提升推算速率,保证模型轻量化,最后计算mAP(Mean Average Precision)和Rank以评估模型性能。
[0020]本专利技术的优点及有益效果如下:
[0021]本专利技术的创新主要体现在以下三个方面:
[0022]在数据预处理部分,除了采用常规的随机擦除、归一化和裁剪等方法外,还提出了一种新的随机填充方法,通过适量提升行人检测框情景不准确情景出现的概率,进一步提升模型鲁棒性。
[0023]在方法部分,SFT实现了从显著到全面的转变,创新性的利用时间关系放大帧间差异,逐步扩大连续帧的注意区域,使帧级特征更加完整和多样,从而在时间融合后产生更多信息丰富的视频级特征。SFT的性能取决于帧级信息的丰富程度,为此,引入LII模块通过集成和分发全局信息的方式,使得特征能够跨所有帧传递,促进时空维度任意两个位置之间的信息交互。
[0024]与此同时,LII的优势还在于亲和图是可学习的,可以自动从训练分布中发现有用的模式。其次,优化了不同维度矩阵链学习的顺序,增加了组合特征的灵活性。最后,LII建立了不同帧任意空间位置的连接,极大的促进了信息间的相互传递。
[0025]在整体结构部分,在训练阶段保持完整结构,在测试阶段,去除部分分支结构,保证测试精度的同时,提升推演速度,加强了在实际应用中的可行性。
附图说明
[0026]图1是本专利技术提供优选实施例基于区域扩增和位置信息交互的视频行人重识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,包括以下步骤:步骤1:对输入视频基准数据进行切片,然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平或垂直翻转以及随机填充在内的预处理操作;步骤2:对于原始输入特征利用通道注意层CAL进行处理,用于进行通道权值重建,过滤错误以及无意义的通道;步骤3:在经过CAL之后,提取前帧的显著特征,其中P为经过CAL处理后的0到s的特征映射集合,s为步骤1中切片位置,提取的特征将用于抑制后续帧级特征的显著信息;步骤4:利用生成的特征来抑制中已经在P中激活的显著区域,其中Q为经过CAL处理后的s到t

1的特征映射集合,t为输入帧总数,使得其后的帧级特征关注更加宽泛的细粒度信息,获得更完整的特征表示;步骤5:将信息从传递到其中X为初始输入张量,Y为最终生成的特征抑制图;步骤6:集成和分发帧信息的全局特性,建立时空维度任意两个位置之间的连接,使信息能够跨所有帧传递的同时实现帧之间的相互增强;步骤7:根据模型设定设计损失函数来指导训练过程;步骤8:在训练阶段,通过步骤1

7的操作实现特征间的信息交互以及从显著到全面的过渡,来辅助骨干ResNet

50训练,在测试阶段,放弃部分分支以提升推算速率,保证模型轻量化,最后计算mAP和Rank以评估模型性能。2.根据权利要求1所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤1具体为:从显著到全面过渡SFT框架的输入有两项,分别为特征映射以及分割位置;对于特征映射,SFT采用了具有详细语义信息的中层特征映射;给定一个切片包含t帧,利用骨干的Res

Net50网络获得中间层特征映射这里的c代表通道数,h代表高度,w代表宽度;对于分割位置s,它决定了前帧和后帧中哪些帧需要被抑制,即SFT会捕捉X
0,

,s
‑1中的显著特征,抑制后帧X
s,

,t
‑1中的显著特征;然后对输入视频帧进行包括裁剪、随机擦除、归一化、水平(垂直)翻转以及随机填充在内的预处理操作,其中随机填充是新提出的数据增强方法;具体而言,原始图像尺寸为C
×
W
×
H,生成的噪声图像的尺寸为C
×
(d
×
W)
×
(d
×
H),其中d是在(1,1+r)范围内生成的一个随机数,r代表常数,然后将原始图像叠加到噪声图像的随机位置,最后使用Resize操作缩小至原始图像大小作为输入。3.根据权利要求2所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤2具体为:SFT的第一个模块是通道注意模块,目的是过滤掉误导和无意义的通道;生成通道权重如下:
其中是的级联,X
no

pad
是X的子区域,没有第一和最后行/列,GAP是全局平均池化层,W
c
是对每个通达中心性的估计,即关注中心前景信息的通道赋值为1,其他通道赋值为0;通道注意模块还用ECA

Net来建立相邻通道的关系信息;结果是一个c维向量W
e
,表示每个通道的权重;通过对输入特征映射应用W
c
和W
e
,CAL将返回更集中,更有意义的特征映射;根据分割位置s将返回特征映射重命名为和和4.根据权利要求3所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤3具体为:在通道注意模块之后,SFT生成一个k*k的卷积核,k表示核大小,以更多的包含的显著信息,具体操作如下:输入张量为由拼接而来,然后利用多头注意力机制针对每个位置的重要性进行加权,并返回注意图为进一步增加注意图的多样性和信息丰富度,需要避免A
P
的崩溃,为此,在k2维和s
×
h
×
w维依次采用L1

Normalization,将特征图和注意力图通过矩阵乘法得到k*k大小的卷积核为简洁起见,P和A
P
暂时被重塑为和其中u=s
×
h
×
w。5.根据权利要求4所述的一种基于区域扩增和位置信息交互的视频行人重识别方法,其特征在于,所述步骤4具体为:在该部分,利用上述生成的核来抑制中已经在P中激活的显著区域,之后的帧可以关注更广泛的区域,获得更加完整的特征表示;首先,对输入特征Q
i
和大...

【专利技术属性】
技术研发人员:唐贤伦陆斌宇邓武权王乐君钱小东万辉黄健李伟生徐梓辉陈霸东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1