基于相关性滤波的文本行人重识别方法技术

技术编号:34994848 阅读:22 留言:0更新日期:2022-09-21 14:42
本发明专利技术涉及一种基于相关性滤波的文本行人重识别方法,属于计算机视觉技术领域。包含三个部分,第一部分为提取行人图像特征和文本特征过程;第二部分为基于去噪滤波器来提取图像和关键词候选区域并进行全局特征的对齐;第三部分为基于字典滤波器的图像和文本的局部特征匹配过程,最终实现基于文本的行人重识别。本发明专利技术有效提取了行人图像和文本描述中的关键信息,同时自适应的进行局部特征的对齐,摆脱了对预处理方法的依赖,满足实时处理的需求。求。求。

【技术实现步骤摘要】
基于相关性滤波的文本行人重识别方法


[0001]本专利技术属于计算机视觉
,具体涉及到一种基于相关性滤波的文本行人重识别方法。

技术介绍

[0002]文本行人重识别任务是指通过建立自然语言和行人图像的关系,从指定图库中检索出与描述文本最相关的行人图像。由于该技术在智能监控、目标跟踪、人员搜救等领域具有极高的应用价值,引发了工业界的广泛关注与研究。然而,一方面,这项任务需要全面深入的理解复杂的自然语言和各种场景下的行人图像,另一方面,待识别图像的光照饱和度,实例姿态、分辨率随拍摄场景、拍摄时间、拍摄角度变化而不断变化,这都给基于文本的行人重识别带来了较大困难。
[0003]目前基于文本的行人重识别方法大多引入预处理方法以获取关键词和图像候选区域,然后再实现文本与图像的匹配。这些框架不可避免的受限于预处理方法的检索能力,同时昂贵的计算代价无法满足智能监控等应用的实时处理需求。

技术实现思路

[0004]要解决的技术问题
[0005]为了克服现有技术不足,本专利技术提供了一种轻量和鲁棒的基于相关性滤波的行人重识别方法,该方法实现了自适应提取关键信息和实时处理的要求。
[0006]技术方案
[0007]一种基于相关性滤波的文本行人重识别方法,其特征在于步骤如下:
[0008]步骤1:图像特征的提取
[0009]给定一张自然场景中的行人图片及对应的文本描述,使用双线性插值法把行人图片调整为384
×
128,并使用随机水平翻转来进行数据增强;输入到ResNet

50卷积神经网络得到图像特征
[0010]步骤2:文本特征的提取
[0011]给定的文本描述语句分解为词,通过词嵌入后得到各个词对应的特征向量;规定最长的语句长度为64,将经过位置编码后的词向量输入进Bert网络中,得到融合语句信息的各个词汇的特征向量
[0012]步骤3:利用去噪过滤器的特征增强
[0013]将图像特征与文本特征分别输入到模型的全局对齐模块;在去噪滤波器模块中,以图像特征为例,将前景(foreground)滤波器v
f
∈R
1024
、背景(background)滤波器v
b
∈R
1024
和图像特征作为输入,经过该模块后得到抑制背景噪声的图像特征类似地,得到抑制不相关词的文
本特征
[0014]步骤4:行人图像及文本的全局对齐
[0015]把经过前一阶段进行特征增强后的图像特征和作为输入,经过全局最大池化层(GMP)后得到全局图像特征g
g
∈R
1024
和全局文本特征e
g
∈R
1024
,得到全局水平的相似度矩阵S
g
∈R1;
[0016]步骤5:利用字典滤波器的局部特征提取
[0017]在定义自适应的字典滤波器D
g
∈R6×
1024
的情况下,分别将图像特征的情况下,分别将图像特征和作为输入;其中,图像特征直接输入到字典滤波器中,得到描述行人身体6个不同部分的图像局部特征文本特征先经过多分支全连接层,再输入到字典滤波器中,得到描述行人身体6个不同部分的文本局部特征
[0018]步骤6:行人图像及文本的局部和非局部特征对齐
[0019]将图像局部特征和文本局部特征输入到局部对齐模块中,得到局部水平的相似度矩阵再将图像局部特征G
l
和文本局部特征E
f
输入到基于自注意力的局部关系学习模块中,得到非局部水平的相似度矩阵输出S
n
∈R1;
[0020]步骤7:行人图像及文本匹配
[0021]利用所得到的全局水平的相似度矩阵S
g
∈R1、局部水平的相似度矩阵非局部水平的相似度矩阵输出S
n
∈R1进行求和,即输入的图像文本对的相似分数分数得到最终的匹配结果。
[0022]有益效果
[0023]本专利技术针对目前大多数框架受限于预处理方法且效率不高的问题,提出简单且鲁棒的自适应过滤器框架,有效提取了行人图像和文本描述中的关键信息,同时自适应的进行局部特征的对齐,摆脱了对预处理方法的依赖,满足实时处理的需求。
附图说明
[0024]附图仅用于示出具体实施例的目的,而并不认为是对本专利技术的限制,在整个附图中,相同的参考符号表示相同的部件。
[0025]图1基于相关性滤波的文本行人重识别模型框架图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不
用于限定本专利技术。此外,下面描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0027]如图1所示,本专利技术的技术方案主要模块包含如下:该系统包含三个部分,第一部分为提取行人图像特征和文本特征过程;第二部分为基于去噪滤波器来提取图像和关键词候选区域并进行全局特征的对齐;第三部分为基于字典滤波器的图像和文本的局部特征匹配过程,最终实现基于文本的行人重识别。在第一部分中,采用ResNet50的卷积神经网络对行人图片信息进行特征提取,采用Bert预训练模型对文本进行特征提取。在第二部分中,采用去噪滤波器分别过滤掉行人图像和文本的原始特征图中的噪声信息(background),从而得到前景信息(foreground),同时利用全局最大池化计算文本图像对的全局特征向量的相似矩阵。在第三部分中,将字典滤波器与去噪后的行人图像特征结合起来学习不同行人的身体部分关系及行人图像局部特征,利用多分支全连接层和字典滤波器计算描述行人身体各个部分的文本局部特征向量,进而得到行人各身体部分与文本局部特征向量的之间的相似度矩阵,最终帮助模型实现文本与行人图像的总相似度计算。
[0028]本专利技术提供了一种基于文本和过滤器的行人重识别方法,具体过程如下:
[0029](1)一张行人图片经过ResNet50卷积神经网络后提取得到一个特征图(feature map)并记为G,其中特征图的空间分辨率是w
×
h,g
i
表示特征图G的一个网格特征。
[0030](2)语句信息分解为词,通过词嵌入后得到各个词对应的特征向量。将每个词向量和对应的位置编码输入进Bert网络中,得到的输出再经过一个1
×
1的卷积层、批标准化处理和RELU后,得到融合语句各个信息的词汇向量的特征向量E,理和RELU后,得到融合语句各个信息的词汇向量的特征向量E,
[0031](3)将G和E输入到模型的全局对齐模块。该模块由两个部分组成,去噪滤波器模块和行人图像及文本全局对齐模块。以图像去噪滤波器模块为例。该模块的输入为设置两个自适应的滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相关性滤波的文本行人重识别方法,其特征在于步骤如下:步骤1:图像特征的提取给定一张自然场景中的行人图片及对应的文本描述,使用双线性插值法把行人图片调整为384
×
128,并使用随机水平翻转来进行数据增强;输入到ResNet

50卷积神经网络得到图像特征g
i
∈R
1024
;步骤2:文本特征的提取给定的文本描述语句分解为词,通过词嵌入后得到各个词对应的特征向量;规定最长的语句长度为64,将经过位置编码后的词向量输入进Bert网络中,得到融合语句信息的各个词汇的特征向量e
t
∈R
1024
;步骤3:利用去噪过滤器的特征增强将图像特征g
i
∈R
1024
与文本特征e
t
∈R
1024
分别输入到模型的全局对齐模块;在去噪滤波器模块中,以图像特征为例,将前景(foreground)滤波器v
f
∈R
1024
、背景(background)滤波器v
b
∈R
1024
和图像特征作为输入,经过该模块后得到抑制背景噪声的图像特征类似地,得到抑制不相关词的文本特征步骤4:行人图像及文本的全局对齐把经过前...

【专利技术属性】
技术研发人员:王鹏索伟孙梦阳赖岚清
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1