一种基于多模态的图卷积神经网络行人重识别方法技术

技术编号：37324873 阅读：15 留言：0更新日期：2023-04-21 23:04

本发明专利技术的技术方案是提供了一种基于多模态的图卷积神经网络行人重识别方法。本发明专利技术基于图卷积神经网络的理论方法，提出了一种具有创新性的科学有效的图卷积神经网络行人重识别方法。本发明专利技术更加深入挖掘行人属性之间潜在语义联系，并将其融入到行人特征中，通过多模态的方式，运用图卷积神经网络学习行人文本属性之前潜在的语义联系，并将其融合到行人重识别中。本发明专利技术将行人图像与文本属性特征视为图节点，通过图卷积运算传递图节点特征，使得行人图像特征融合文本属性间隐含的语义联系信息，最终图卷积神经网络输出得到的行人特征更具鲁棒性。具鲁棒性。具鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态的图卷积神经网络行人重识别方法

[0001]本专利技术涉及一种基于多模态的图卷积神经网络行人重识别方法，属于行人重识别领域。

技术介绍

[0002]行人重识别在视频监控跟踪识别方面具有重要的应用意义，能够在尽量避免人力资源介入的情况下，对海量监控视频数据中的行人进行检索，寻找出目标行人。由于现实中行人图像状况十分复杂，行人外观复杂、摄像头分辨率低、跨场景、遮挡严重，而且摄像头在各种公共区域大量部署，在数以万计的监控视频图像中检索到目标行人或者有效的信息，采用人工监控的方式显然是不科学的，这样做不仅效率低下且严重浪费人力资源。因此，利用行人重识别技术对数以万计的监控视频中行人进行精准的定位，这让行人重识别技术成为了当今研究热点。
[0003]现阶段，行人重识别主要运用人工智能、深度学习等技术对行人进行识别跟踪，其过程为：选择来自某个摄像头下的行人图像作为识别目标，其他摄像头下的全部行人作为检索库，使用模型算法对检索对象以及检索库中全部行人的外观信息进行特征提取，通过特征匹配的方式，以此匹配出现在其他摄像头下该行人的图像。因此，行人重识别是一个行人检索匹配任务，对于从某个摄像头获取的行人图像，从其他多个非重叠监控摄像头中匹配出该行人。基于图像的传统的行人重识别方法一般在于提取低级的图像特征。这些方法在小规模数据集上取得了一定的成功，但是这些基于人工设计特征的方法都存在一定的局限性，需要手动设计特征，导致工作量庞大且效率低下，不适于现有的大规模数据集。随着深度学习的发展，基于深度学习的行人重识别研究逐...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的图卷积神经网络行人重识别方法，其特征在于，包括以下步骤：步骤1、构建并训练行人文本属性预测模型，其中，对于行人图像X
i
，其属性标注表示为Y
i
，则有，则有表示第i个行人的第j个属性是否出现在行人图像X
i
中；步骤2、根据步骤1中得到的行人文本属性预测模型预测获得训练集中每张行人图像的文本属性，并根据模型预测置信度由大到小排序，则对于行人图像X
i
，通过行人文本属性预测模型预测获得的文本属性表示为A
i
，，为根据模型预测置信度选择的top
‑
k个属性；步骤3、将步骤2获得的文本属性转换为特征向量表示，并使得行人文本属性特征与行人图像全局特征维度对齐，获得维度为D的行人文本属性特征；步骤4、利用行人全局图像特征提取模型提取行人全局图像特征，包括以下步骤：行人全局图像特征提取模型使用ResNet
‑
50作为骨干网络，将行人图像输入骨干网络后，将ResNet
‑
50的最后一层下采样操作步长从2修改为1，在得到最后一层卷积操作的行人特征后，使用全局平均池进行处理，对于经过全局池化层的特征，采用BN层来对其进行正则化操作，通过BN层后所获得的行人全局图像特征表示为G
f
，则有：G
f
＝L
bn
(L
gap
(M
cnn
(X；w
cnn
)))∈R
D
其中，w
cnn
表示ResNet
‑
50参数，M
cnn
表示ResNet
‑
50，L
bn
和L
gap
分别表示全局池化层和正则化层；步骤5、通过图卷积神经网络学习文本属性间联系语义，与图像特征融合，具体包括以下步骤：步骤501、构建节点特征集合V和图的邻接矩阵AD，以此作为图卷积神经网络输入，其中，节点特征集合V初始化为行人文本属性特征集合A
f
和行人图像特征G
f
，则节点特征集合V表示为：V＝{G
f
，A
f
}∈R
(k+1)*D
图的邻接矩阵AD为相似性矩阵，用于度量两个节点之间的关联度，有：式中：AD
ij
为邻接矩阵AD中第i行、第j列的元素；V
i
，V
j
∈V，1≤i，j≤k+1；φ(V
i
)
T
、表示在训练阶段通过反向传播学习的两个全连接层；步骤502、为了使得图卷积神经网络对节点间关系进行挖掘，图卷积神经网络各层使用残差链接方式，如下式所示：V
l+1
＝σ(AD
l
V
l
w
l
)+V
l
其中：l表示当前图卷积神经网络层数；AD
l
是图卷积神经网络第l层的图的邻接矩阵；w
l
是网络学习得到的图卷积神经网络的第l层的参数权重；V
l
表示图卷积神经网络第l层的节点特征集合，其中，V0＝V；σ()表示非线性激活函数；步骤503、通过图卷积计算，挖掘行人文本属性中隐含的语义联系信息，并将该语义联系信息融合到行人图像特征中，最后输出最终的行人特征；步骤6、计算行人相似性：根据步骤6中图卷积神经网络输出的最终的行人特征，计算行人相似度，并以此计算评
价指标，具体为首位命中率Rank
‑
1，平均精度均值mAP。2.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员：何嘉明，张恺，孙峥，
申请(专利权)人：东方财富信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人