文本到图像的跨模态行人再识别方法、系统、介质和设备技术方案

技术编号：34374224 阅读：130 留言：0更新日期：2022-07-31 12:40

本发明专利技术公开了一种文本到图像的跨模态行人再识别方法、系统、介质和设备，该方法包括下述步骤：构建基于人体组件的文本网络模型和图像网络模型，提取多个粗糙对齐的图像局部人体组件特征；将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征；使用像素注意模型，结合交互训练策略，将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征；构建身份损失和排序损失进行训练；训练完成后，输入测试文本和图像库图像，计算测试文本和图像库图像之间的余弦相似度，输出识别结果。本发明专利技术无需借助额外的工具或者手工标注，具有更好的泛化性能和更小的成本。性能和更小的成本。性能和更小的成本。

Method, system, medium and equipment for cross modal pedestrian recognition from text to image

全部详细技术资料下载

【技术实现步骤摘要】
文本到图像的跨模态行人再识别方法、系统、介质和设备

[0001]本专利技术涉及文本描述的行人重识别
，具体涉及一种文本到图像的跨模态行人再识别方法、系统、介质和设备。

技术介绍

[0002]行人重识别(Person Re
‑
Identification)指的是给定特定行人的图像、视频或者文本描述，算法模型在图像库或者视频库中寻找到该行人对应的图像或者视频。
[0003]根据给定的检索内容，行人重识别可分为：基于图像的行人重识别、基于属性的行人重识别和基于文本描述的行人重识别。在实际应用中，基于文本描述的行人重识别的效果往往比另外两种行人重识别技术好。一方面，由于现实场景中，目标对象实时的图像往往不容易获得，而目标对象的文本描述更容易获得。例如，有个小孩或者老人走丢时，寻人启事中往往只给了走丢时的衣着外貌的描述和过去的生活照，基于图像的行人重识别对于这种换衣的场景下往往难以有很好的效果，而此时基于文本描述的行人重识别在这种追踪场景下可以轻松使用文本描述进行检索并且保证性能不会明显下降。另一方面，...

【技术保护点】

【技术特征摘要】
1.一种文本到图像的跨模态行人再识别方法，其特征在于，包括下述步骤：构建基于人体组件的文本网络模型和图像网络模型，以Bi
‑
LSTM网络作为文本特征提取的主干网络，文本经过Bi
‑
LSTM处理得到文本特征，以ResNet
‑
50网络作为图像特征提取的主干网络，行人图像经过ResNet
‑
50处理得到图像特征图；将图像特征图进行水平划分，分别经过全局最大池化和卷积层，得到多个粗糙对齐的图像局部人体组件特征；将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征；使用像素注意模型，结合交互训练策略，将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征；所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现；构建身份损失和排序损失进行训练；固定文本网络模型和单词注意力模型参数，利用文本网络模型提取的文本局部人体组件特征作为监督，约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近，固定像素注意力模型参数，交替训练单词注意力模型和像素注意力模型；放开模型所有参数，同时训练单词注意力模型和像素注意力模型；训练完成后，输入测试文本和图像库图像，计算测试文本和图像库图像之间的余弦相似度，输出识别结果。2.根据权利要求1所述的文本到图像的跨模态行人再识别方法，其特征在于，所述以Bi
‑
LSTM网络作为文本特征提取的主干网络，文本经过Bi
‑
LSTM处理得到文本特征，具体步骤包括：将文本中的单词编码成词典，并构建随机初始化的单词编码嵌入矩阵；给定一个行人的文本描述，按词典将每个单词转换为编码，并送入单词编码嵌入矩阵得到每个单词的嵌入特征x
i
；将所有单词的嵌入特征送入Bi
‑
LSTM网络，从第一个单词x1到最后一个单词x
n
和从最后一个单词x
n
到第一个单词x1两个方向进行处理，具体表示为：两个方向进行处理，具体表示为：其中，和分别表示第i个单词的向前和向后的隐藏状态，用于表示第i个单词的特征，定义如下：文本的特征表示为所有单词特征并联得到的行向量特征，具体表示如下：E＝[e1,e2,
…
,e
n
]。3.根据权利要求1所述的文本到图像的跨模态行人再识别方法，其特征在于，所述以ResNet
‑
50网络作为图像特征提取的主干网络，具体将在imageNet2012预训练好的ResNet
‑
50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
4.根据权利要求1所述的文本到图像的跨模态行人再识别方法，其特征在于，所述将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征，具体步骤包括：通过给定文本特征向量输入到单词注意力模型，对单词特征按照其所属的行人组件进行分类，得到每个单词归属于第k个行人组件的概率具体计算公式为：其中，表示卷积层，σ表示sigmoid函数，e
i
表示单词特征，概率加权文本特征向量得到参量E
k
，具体表示为：将参量E
k
经过行向量最大池化和卷积层，得到文本局部人体组件特征。5.根据权利要求1所述的文本到图像的跨模态行人再识别方法，其特征在于，所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征，具体步骤包括：给定图像特征图输入到像素注意力模型，计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率具体计算公式表示为：其中，表示卷积层，σ表示sigmoid函数；概率加权图像特征图得到参量F
k...

【专利技术属性】
技术研发人员：丁泽锋，丁长兴，邵智寅，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人