联合全局和局部信息的层次监督行人再识别方法及系统技术方案

技术编号:34461683 阅读:23 留言:0更新日期:2022-08-06 17:25
本发明专利技术给出了一种联合全局和局部信息的层次监督行人再识别方法和系统,包括将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。本发明专利技术提出的方法和系统执行一个单向聚合操作来推动CNN学习全局特征信息的同时,为了能充分利用全局特征信息和局部信息,结合双线性池化来执行层次监督,在跨长时间段的行人重识别数据集上有很显著的性能提升。提升。提升。

【技术实现步骤摘要】
联合全局和局部信息的层次监督行人再识别方法及系统


[0001]本专利技术涉及计算机视觉的
,尤其是联合全局和局部信息的层次监督行人再识别方法和系统。

技术介绍

[0002]行人重识别是计算机视觉中一个典型的任务,其目的在不同摄像机视角下关联同一个人行人。在近几年随着监控系统在公共场所的广泛部署,行人重识别技术近年来受到越来越多的关注。行人重识别依靠着CNN强大的特征学习能力,获得许多先进显著的性能。然而,在实际场景下,行人的衣服着装是会发生变化的,这是目前行人重识别算法所忽略的问题。因此,现有的行人重识别算法针对的场景是短时间的,其行人外观着装变化不大。
[0003]由于行人姿态变换、视角变化、光照强度变化、背景干扰等因素的影响,行人重识别是一个具有挑战性的任务。对于跨长时间段的场景,外观变化可以看作是影响行人重识别系统性能的主要因素之一。
[0004]目前行人重识别还是主要针对研究短时间的场景,忽略了跨长时间段的场景。然而,在现实应用中,跨长时间段的行人重识别算法是一个主要的方法。对于跨长间段的场景,不但要考虑行人身上局部的细节信息,还要考虑图像中的全局信息,两种信息需要相辅相成。现有的行人重识别(re

ID)工作主要集中在短时间(short

term)情况下,行人着装基本不会有太大的变化。一个鲁棒的行人重识别系统应该考虑到行人着装这些变化。基于深度卷积神经网络(CNN)强大的表征能力,短时间的行人重识别获得了多项最先进的性能(Top

>1和mAP)。然而,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long

term)的行人重识别场景。

技术实现思路

[0005]为了解决现有技术中行人重识别(re

ID)工作主要集中在短时间(short

term)情况下,行人着装基本不会有太大的变化,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long

term)的行人重识别场景等技术问题,本专利技术提出了一种联合全局和局部信息的层次监督行人再识别方法和系统,以解决上述技术问题。
[0006]根据本专利技术的第一方面,提出了一种联合全局和局部信息的层次监督行人再识别方法,包括:
[0007]S1:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
[0008]S2:将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
[0009]S3:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
[0010]S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
[0011]在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0

11,输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。Transformers可用于获取图像中全局的特征依赖关系。
[0012]在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
[0013]在一些具体的实施例中,S3具体为:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:其中,R代表ReLU激活函数,B代表BN层,C
1*1
代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
[0014]在一些具体的实施例中,S4的具体表达式如下:
[0015]其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,两个向量的外积,S代表常量。
[0016]在一些具体的实施例中,损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,三元组损失函数的公式为熵损失函数,其中,三元组损失函数的公式为其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像x
a
,在和x
a
相同身份的图像中选择一张相似度距离最大的图像x
p
作为正样本,在和x
a
不同身份的图像中选择一张相似度距离最小的图像x
n
作为负样本,为认为设定的阈值,d(
·
,
·
)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
[0017]根据本专利技术的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
[0018]根据本专利技术的第三方面,提出了一种联合全局和局部信息的层次监督行人再识别系统,系统包括:
[0019]图像切割模块:配置用于将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
[0020]张量拓展模块:配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
[0021]通道级联模块:配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
[0022]特征融合模块:配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
[0023]在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0

11,输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。
[0024]在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
[0025]在一些具体的实施例中,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种联合全局和局部信息的层次监督行人再识别方法,其特征在于,包括:S1:将输入图像切成多个图像小块,将所述图像小块作为Transformers分支网络的输入;S2:将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,所述expand层将2D张量拓展为4D张量;S3:将拓展后的4D张量特征信息和对应的所述残差卷积块进行通道级联;S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。2.根据权利要求1所述的行人再识别方法,其特征在于,所述Transformers分支网络包括12块同样结构的网络块,所述网络块的序号编号为0

11,所述输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。3.根据权利要求2所述的行人再识别方法,其特征在于,将序号编号为1、3、5、8的所述网络块的特征信息分别引入ResNet50中对应的残差卷积块。4.根据权利要求1所述的行人再识别方法,其特征在于,所述S3具体为:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:其中,R代表ReLU激活函数,B代表BN层,C
1*1
代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。5.根据权利要求4所述的行人再识别方法,其特征在于,所述S4的具体表达式如下:其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,两个向量的外积,S代表常量。6.根据权利要求1所述的行人再识别方法,其特征在于,所述损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,所述三元组损失函数的公式为其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像x
a
,在和x
a
相同身份的图像中选择一张相似度距离最大的图像x
p
作为正样本,在和x
a
不同身份的图像中选择一张相似度距离最小的图像x
n
作为负样本,为认为设定的阈值,d(
·
,
·
)定义为欧式距离,batch表示批处理的参数大小;所述标签平滑正则化的交叉熵损失函数的公式为的参数大小;所述标签平滑正则化的交叉熵损失函数的公式为其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。7.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多
个计算机程序被计算机处理器执行时实施权利要求1至6...

【专利技术属性】
技术研发人员:吴俊毅高志鹏姚灿荣涂梅林赵建强杜新胜张辉极
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1