一种基于多模态的图卷积神经网络行人重识别方法技术

技术编号:37324873 阅读:15 留言:0更新日期:2023-04-21 23:04
本发明专利技术的技术方案是提供了一种基于多模态的图卷积神经网络行人重识别方法。本发明专利技术基于图卷积神经网络的理论方法,提出了一种具有创新性的科学有效的图卷积神经网络行人重识别方法。本发明专利技术更加深入挖掘行人属性之间潜在语义联系,并将其融入到行人特征中,通过多模态的方式,运用图卷积神经网络学习行人文本属性之前潜在的语义联系,并将其融合到行人重识别中。本发明专利技术将行人图像与文本属性特征视为图节点,通过图卷积运算传递图节点特征,使得行人图像特征融合文本属性间隐含的语义联系信息,最终图卷积神经网络输出得到的行人特征更具鲁棒性。具鲁棒性。具鲁棒性。

【技术实现步骤摘要】
一种基于多模态的图卷积神经网络行人重识别方法


[0001]本专利技术涉及一种基于多模态的图卷积神经网络行人重识别方法,属于行人重识别领域。

技术介绍

[0002]行人重识别在视频监控跟踪识别方面具有重要的应用意义,能够在尽量避免人力资源介入的情况下,对海量监控视频数据中的行人进行检索,寻找出目标行人。由于现实中行人图像状况十分复杂,行人外观复杂、摄像头分辨率低、跨场景、遮挡严重,而且摄像头在各种公共区域大量部署,在数以万计的监控视频图像中检索到目标行人或者有效的信息,采用人工监控的方式显然是不科学的,这样做不仅效率低下且严重浪费人力资源。因此,利用行人重识别技术对数以万计的监控视频中行人进行精准的定位,这让行人重识别技术成为了当今研究热点。
[0003]现阶段,行人重识别主要运用人工智能、深度学习等技术对行人进行识别跟踪,其过程为:选择来自某个摄像头下的行人图像作为识别目标,其他摄像头下的全部行人作为检索库,使用模型算法对检索对象以及检索库中全部行人的外观信息进行特征提取,通过特征匹配的方式,以此匹配出现在其他摄像头下该行人的图像。因此,行人重识别是一个行人检索匹配任务,对于从某个摄像头获取的行人图像,从其他多个非重叠监控摄像头中匹配出该行人。基于图像的传统的行人重识别方法一般在于提取低级的图像特征。这些方法在小规模数据集上取得了一定的成功,但是这些基于人工设计特征的方法都存在一定的局限性,需要手动设计特征,导致工作量庞大且效率低下,不适于现有的大规模数据集。随着深度学习的发展,基于深度学习的行人重识别研究逐渐成为研究热点。
[0004]如今大部分行人重识别的研究都是围绕行人外观信息进行特征提取而展开的,基于行人外观信息的行人重识别指的是:基于行人的衣着、性别、背包等外观信息,设计相应的模型算法,提取行人图像特征并对其特征进行匹配操作,在检索库中匹配出同一身份的行人。行人重识别又分为单域任务与跨域任务,单域任务是指行人数据采集于同一场景下不同区域,训练与测试数据分布近似,同一行人外观变化主要受到环境影响,大部分衣装信息未发生改变。而跨域任务是指行人数据采集于多个不同的场景,不仅场景间差异较大,而且行人大部分衣装信息发生改变,训练与测试数据分布差异较大,为模型鲁棒性带来较高的要求。本专利技术基于单域任务开展相关研究。由此可见,行人重识别技术的关键在于如何设计合理科学的模型提取具有判别性和鲁棒性的特征。
[0005]目前在深度学习领域实现行人重识别的国内外研究技术方案包括:
[0006](1)基于行人文本属性的领域
[0007]行人文本属性(例如行人性别、衣着类型及颜色等外观信息)作为行人特征重要补充,不会以行人角度、姿态而转移,具有高阶的语义空间,并且通常蕴含着与行人身份ID高度相关的信息。因此,研究学者将行人文本属性信息引入行人重识别领域中,将行人文本属性识别以及行人重识别相结合,成为了新的研究热点。
[0008]Khamis等人[1]提出了联合学习属性一致性的行人重识别模型,将行人文本属性信息引入到行人匹配排序过程中,对相似度排序进行约束。另外,在训练阶段联合排序组损失与属性分类损失共同优化模型。邵晓雯等人[2]提出了一种融合行人文本属性特征的方法,不仅将行人文本属性分类引入到行人重识别网络中,还根据属性生成对应的权重,最终将加权的属性特征与全局特征相结合。
[0009]Lin等人[3]在行人重识别数据集Market

1501和DukeMTMC

reID分别标注了27和23种文本属性,例如性别,头发长度,鞋子类型,携带背包,上衣颜色以及下衣颜色等。其次,提出了行人文本属性识别模块(Attribute Person Recognition,APR),该模块是在卷积神经网络的基础上加入M+1个分类器构成的,其中M+1个分类器中由M个行人文本属性分类器和1个行人身份ID分类器组成。然后通过引入属性重加权ARM模块学习属性之间的关联性和依赖性,以此提升属性预测准确性,同时在训练过程中引入属性预测,分别探讨各个属性对模型识别效果的影响。另外,还提出了测试阶段加速行人检索匹配的方法,根据检索对象与检索库中属性的不同,快速过滤检索库中的行人图像。
[0010]Arne等人[4]提出了属性信息互补的行人重识别方法(Attribute

Complementary Reid Net,ACRN),该方法通过预训练属性预测模型并将识别的属性语义信息融合到行人重识别模型中,实验结果表明属性信息融合为模型效果带来了显著的提升,另外,作者还进一步深入探讨了哪些属性最适合行人重识别。Tay等人[5]提出了一个属性注意力模型(Attribute Attention Network,AANet),由全局特征提取模块(Global Feature Network,GFN)、行人部位检测模块(Part Feature Network,PFN)和关键属性检测模块(AFN)组成。AFN模块首先对行人文本属性进行分类预测,根据属性分类结果生成属性类别激活图(Attribute Feature Network,CAM)。CAM用于定位图像中判别性区域,随后被送到属性注意力图(Attribute Attention Map,AAM)分类器中学习关键的属性信息。
[0011]Shi等人[6]提出了一种属性对齐网络,由粗对齐和精对齐模块组成,分别选取预训练的人体部位检测模型与属性预测模型来生成人体部位特征与属性特征,其中精对齐模块选择出重要的属性特征,最后将属性特征与相应的部位特征相融合。
[0012](2)基于图卷积神经网络的领域
[0013]图神经网络(Graph Neural Network,GNN)[7]近年迅速发展,它可以具有优秀的图节点关系学习能力。另外,图卷积神经网络(Graph Convolutional Network,GCN)[8]提出了通过卷积的方式学习图上节点的关系,优化了传统图模型,进一步提升了图卷积神经网络的特征挖掘能力。图卷积神经网络已经在一些计算机视觉领域取得了成功的应用,例如基于人体关键点的行为识别[9]、视频分类[10]、多标签图像识别[11]等。行人数据集中存在某些潜在的高阶语义联系,例如行人与行人图像间相似性关系,视频中连续帧的时序关系以及行人身体部位关节点联系等,将图神经网络应用到行人重识别任务中可以更好地学习到行人之间的联系。
[0014]Shen等人[12]设计了一个相似性引导图神经网络模型(Similarity

Guided Graph Neural Network,SGGNN),该网络在训练阶段引入检索库中图像之间的关联性来增强特征学习,获取得到更具判别性的行人特征。SGGNN在训练阶段引入标签信息监督学习更加精确的特征融合权重,以此更新节点特征。这种相似性引导的方式保证了特征融合的合理性以及特征融合权重的精确性。
[0015]Bao等人[13]提出了一种掩码图注意力模型(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的图卷积神经网络行人重识别方法,其特征在于,包括以下步骤:步骤1、构建并训练行人文本属性预测模型,其中,对于行人图像X
i
,其属性标注表示为Y
i
,则有,则有表示第i个行人的第j个属性是否出现在行人图像X
i
中;步骤2、根据步骤1中得到的行人文本属性预测模型预测获得训练集中每张行人图像的文本属性,并根据模型预测置信度由大到小排序,则对于行人图像X
i
,通过行人文本属性预测模型预测获得的文本属性表示为A
i
,,为根据模型预测置信度选择的top

k个属性;步骤3、将步骤2获得的文本属性转换为特征向量表示,并使得行人文本属性特征与行人图像全局特征维度对齐,获得维度为D的行人文本属性特征;步骤4、利用行人全局图像特征提取模型提取行人全局图像特征,包括以下步骤:行人全局图像特征提取模型使用ResNet

50作为骨干网络,将行人图像输入骨干网络后,将ResNet

50的最后一层下采样操作步长从2修改为1,在得到最后一层卷积操作的行人特征后,使用全局平均池进行处理,对于经过全局池化层的特征,采用BN层来对其进行正则化操作,通过BN层后所获得的行人全局图像特征表示为G
f
,则有:G
f
=L
bn
(L
gap
(M
cnn
(X;w
cnn
)))∈R
D
其中,w
cnn
表示ResNet

50参数,M
cnn
表示ResNet

50,L
bn
和L
gap
分别表示全局池化层和正则化层;步骤5、通过图卷积神经网络学习文本属性间联系语义,与图像特征融合,具体包括以下步骤:步骤501、构建节点特征集合V和图的邻接矩阵AD,以此作为图卷积神经网络输入,其中,节点特征集合V初始化为行人文本属性特征集合A
f
和行人图像特征G
f
,则节点特征集合V表示为:V={G
f
,A
f
}∈R
(k+1)*D
图的邻接矩阵AD为相似性矩阵,用于度量两个节点之间的关联度,有:式中:AD
ij
为邻接矩阵AD中第i行、第j列的元素;V
i
,V
j
∈V,1≤i,j≤k+1;φ(V
i
)
T
、表示在训练阶段通过反向传播学习的两个全连接层;步骤502、为了使得图卷积神经网络对节点间关系进行挖掘,图卷积神经网络各层使用残差链接方式,如下式所示:V
l+1
=σ(AD
l
V
l
w
l
)+V
l
其中:l表示当前图卷积神经网络层数;AD
l
是图卷积神经网络第l层的图的邻接矩阵;w
l
是网络学习得到的图卷积神经网络的第l层的参数权重;V
l
表示图卷积神经网络第l层的节点特征集合,其中,V0=V;σ()表示非线性激活函数;步骤503、通过图卷积计算,挖掘行人文本属性中隐含的语义联系信息,并将该语义联系信息融合到行人图像特征中,最后输出最终的行人特征;步骤6、计算行人相似性:根据步骤6中图卷积神经网络输出的最终的行人特征,计算行人相似度,并以此计算评
价指标,具体为首位命中率Rank

1,平均精度均值mAP。2.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:何嘉明张恺孙峥
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1