当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于BERT的文本到图像跨模态行人重识别方法技术

技术编号:37975899 阅读:7 留言:0更新日期:2023-06-30 09:51
本发明专利技术公开了一种基于BERT的文本到图像跨模态行人重识别方法。包括以下步骤:首先使用SR

【技术实现步骤摘要】
一种基于BERT的文本到图像跨模态行人重识别方法


[0001]本专利技术涉及一种基于BERT的文本到图像跨模态行人重识别方法,以及设计了一种新的基于BERT的文本到图像跨模态行人重识别框架,涉及视频智能监控领域中的自然语言文本描述到图像的跨模态行人重识别问题,属于计算机视觉与智能信息处理领域。

技术介绍

[0002]基于图像到图像的行人重识别(Person Re

Identification,Re

ID)技术在安防领域、自动驾驶等领域都有着广泛的应用。然而,在刑侦和很多犯罪场景下,通常监控摄像头并不能拍摄到嫌疑人或者罪犯的照片。与基于图像到图像的Re

ID方法不同,基于自然语言文本描述到图像的Re

ID方法(Text

to

Image based Re

ID,TI

ReID)不需要查询人员的任何图像。譬如在安防领域,许多情况下很难获得查询图像,我们只能根据目击证人通过自然语言描述犯罪分子的外貌特征去数据集中搜索对应的目标人物。图1所示,给定特定查询人员的自然语言文本描述,它旨在从大规模人员图像数据库中检索与文本描述最匹配的行人图像。
[0003]针对TI

ReID,相关的图像

语言描述数据集和深度学习技术的提出,大大推进了这一方向的研究进展。早期的TI

ReID方法大多采用了独立的图像编码器(如CNN)和文本编码器(如RNN,Bi

LSTM),然后将文本特征和图像特征进行相似性匹配。近年来,为了缩小文本域和图像域之间的差距,学者们提出了一系列TI

ReID方法,大致分为全局匹配方法和局部匹配方法。全局匹配方法要关注全局视觉和文本表示学习,获取统一的特征空间,而不考虑模态差异。然而,图像包含许多独特的局部细节,难以通过全局表示提取来挖掘。此外,图像中存在一些不相关区域,给全局信息带来了噪声。为了进一步挖掘具有鉴别性和综合性的信息,一些局部对齐匹配方法被提出,通过局部对齐将人的图像与文本描述进行匹配。然而,尽管局部匹配方法尽管取得了不错的性能,但是由于算法引入了人体姿态估计、语义分割或属性识别等额外的模型,导致很难端到端的训练与测试。也有一些方法使用多粒度相似度度量策略,即在测试阶段,该方法需要学习每个图像或文本的多个局部表示,并反复计算局部相似度。附加模型和复杂相似性度量都是相当耗时。因此,有必要为TI

ReID问题设计一个简单易用的框架。
[0004]随着Transformer和BERT的出现,针对文本到图像的跨模态Re

ID问题,使用BERT预训练模型来提取文本特征变得越来越盛行。由于BERT预训练模型是从大规模的语料库中学习得到的,因此,为文本到图像的异构下游任务提供动力。针对图像特征,我们使用SR

ResNet50网络来提取图像特征,该网络含有空间和通道注意的残差网络模块,可以有效提取到更多的行人局部细节的特征。
[0005]现有的大多数基于文本描述的Re

ID方法都试图学习一个联合映射,将相应的文本

图像对投影到共享子空间。然而,这些方法往往忽视了语言描述细节与图像细节的关联。为了克服这一问题,我们将文本描述特征和图像特征进行拼接,然后进行联合共享学习。从而,模型能够学习到语言和视觉间的内在关联。由于我们使用的文本

图像匹配数据
集带有身分标注,为了学习到更多的判别力特征,充分利用文本

图像匹配关系,我们对图像和文本都进行了跨模态投影身份损失。特别地,为了消除图像和文本模态之间的特征差异,我们引入跨模态投影匹配损失,将跨模态特征投影融合到KL散度中,以关联不同模态的表征。
[0006]三元组损失函数是一种常见的度量损失,广泛应用于图像检索领域。三元组损失函数不仅有减小类内距离的特性,还有增大类间距离的特性。这种特性使得三元组损失函数非常适用于行人Re

ID网络训练。近年来,学者们对三元组损失不断改进和发展,当前应用最广泛的是困难三元组损失。在TI

ReID任务中,除了关注模态内差异外,我需要更加关注模态间差异的影响。针对TI

ReID数据集中不同模态文本与图像差异巨大的特点,我们提出跨模态难采样三元组联合损失其包含三部分损失:全局难采样三元组损失模态内难采样三元组损失和模态间难采样三元组损失由于TI

ReID任务中存在两种模态,所以本文将难样本选择范围扩展至文本和图像两种模态,得到全局困难三元组损失。损失更注重模态内变化,它是对全局三元组损失的补充。在TI

ReID中,虽然模态间差异会大于模态内差异,但是正确识别模态内差异也是检验Re

ID算法的重要部分。同一行人相同模态的不同图片,同一行人不同的文本描述存在较大差异;不同行人相同模态的图片,不同行人相同模态文本描述相近,这些都会影响模型的识别效果。因此提出模态内难采样三元组损失,以增加模态内变化学习。损失更注重模态间变化。在TI

ReID问题中,模型需要更加关注模态间变化,因为模态间变化不能通过颜色、服装样式等进行区分,只能通过衣服属性描述、样式描述等特征进行区分。因此提出模态间难采样三元组损失,增加了模态间变化学习,将其作为损失的补充。最终提高跨模态行人重识别精度。

技术实现思路

[0007]本专利技术提出了一种基于BERT的文本到图像跨模态行人重识别方法,设计了一种新的基于BERT模型的双路径自然语言文本描述到图像跨模态行人重识别框架并命名为BDNet。BDNet充分利用图像和文本描述之间的内在联系,将嵌入表示从一种模态转移到另一种模态,提高了跨模态Re

ID的精度。针对图像分支,本专利技术提出了SR

ResNet50骨干网络来提取图像特征,该网络能够更好地引导模型关注目标对象及其显著性区域,为后续Re

ID模型提供较强判别力的视觉特征表示;针对文本分支,使用预训练BERT模型来提取文本特征,并使用ResNet10对BERT输出特征再次进行特征表示,可以更好地提取到文本描述中比较关键的属性语义信息,加强文本特征表示能力。为减轻文本与图像模态差异,本专利技术联合了跨模态投影匹配损失,跨模态投影分类损失和跨模态难采样三元组损失进行联合训练优化模型。此外,为加强文本描述中的关键属性短语与图像局部块的联系,让模型学习关注更多的文本描述中的重要属性词语以及图像中的显著性区域,在图像分支、文本分支和共享CRG网络上都使用了RCSAM注意模块,最终达到提高跨模态行人重识别精度的目的。
[0008]一种基于BERT的文本到图像跨模态行人重识别方法,包括以下步骤:...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的文本到图像跨模态行人重识别方法,其特征在于以下步骤:(1)首先将大小为384
×
128行人图像输入SR

ResNet50网络,得到图像特征f
V
;将文本输入BERT网络,得到特征f
t
,然后将f
t
输入ResNet10网络,得到文本特征f
T
;最后将特征f
V
和f
T
分别输入到VG模块,得到特征和(2)为了消除文本和图像模态差异,分别使用全局最大池化对图像特征f
V
和文本特征f
T
进行处理,得到特征和然后使用“Concatenate”操作对特征和进行拼接,得到融合特征f
V+T
,最后将f
V+T
送入CRG模块,得到特征f

V+T
;通过CRG共享网络来学习两种模态不变的特征表示;(3)为了增强文本中的关键属性短语与图像局部的联系,让模型学习关注文本描述中的重要属性词语和图像中的显著性区域,在图像分支、文本分支和共享CRG网络上都使用了RCSAM注意模块;(4)使用跨模态投影匹配损失,跨模态投影分类损失和跨模态难采样三元组损失来联合训练优化网络模型,最终有效提高文本到图像跨模态行人重识别的精度。2.根据权利要求1所述的方法,步骤(1)中假定训练数据对为其中N表示每批图像

文本对的数量,每批数据由图像V和对应的文本描述T组成;对于每一张行人图像特征提取,首先将大小为384
×
128的行人图像输入到SR

ResNet50网络,得到图像特征然后将f
V
输入VG模块,得到最终行人图像特征图5所示,SR

ResNet50网络的结构来自ResNet50的演变;图4所示,ResNet50网络包含了5个stages,即stage0,stage1,stage2,stage3,stage4,其中Stage0的结构比较简单,可以视为对输入的预处理;stage1~4结构较为相似;本发明在ResNet50的stage1~4后分别添加了一个RCSAM模块,命名为SR

ResNet50网络结构;表1所示,为验证添加RCSAM模块位置及其数量,实验评估对比了不同数量的RCSAM模块对实验的影响,通过实验结果可以发现,在stage1~4后面都添加RCSAM模块,性能达到最优异!与没有添加RCSAM模块相比,Rank1提升了2.18%,mAP提升了2.95%;SR

ResNet50网络相比原始的ResNet50网络可以更加有效地引导模型关注目标对象及其显著性区域,有效提升了图像特征的表示能力;对于每一条自然语言文本描述的文本特征提取,首先使用将文本描述输入BERT预训练模型(注意,文本tokens不超过512),得到文本特征然后将特征f
t
送入ResNet10网络,得到文本特征最后,将f
T
输入VG模块,得到最终文本特征使用BERT预训练模型的好处在于在特定场景使用时不需要用大量的语料来进行训练,节约时间效率高效;本发明选取了泛化能力较强的预训练模型BERT来表征文本描述;BERT的模型架构是一个基于原始实现的多层双向变压器编码器;由于transformer的使用已经变得很普遍,而且本发明的实现过程几乎与最初的实现相同,因此这里省略对模型体系结构的详尽背景描述;图14所示,对于给定的标记,输入表示是通过将相应的标记、段和嵌入位置相加来构造的;给定一个句子,我们应用基本的标记化并将其拆分为单词,然后使用BERT顺序地处理它们;此外,为进一步加强BERT输出的文本特征表示能力,我们在BERT模块后级联了一个ResNet10网络模块;ResNet10用来对BERT输出的文本表示进一步进行特
征提取,使得可以获得更强辨别力的文本特征表示;图13为ResNet10网络结构图,该结构包含了一个1
×
1卷积,3个Bottleneck模块和1个RSCAM模块;图12为Bottleneck模块结构图;图2所示,对于VG组件,利用x.view(b,c,

1)操作来修改输入的图像特征f
V
和文本特征f
T
的tensor的形状,即将H和W维度被合并,再经过TM操作(即torch.mean(x
p
,dim=

1))后输出size为(N,2048)的特征向量;图2所示,对于CRG共享网络组件,将输入特征(b,c,h,w)按顺序分别进行1
×
1卷积,Batch Normalization批归一化处理和Relu非线性激活处理;然后再送入RCSAM模块;接下来,再经过x.view(b,c,

1)操作将h和w合并为一个维度,最后再经过TM操作(即torch.mean(x
p
,dim=

1))后输出size为(N,2048)的特征向量。3.根据权利要求1所述的方法,步骤(2)中为了消除文本和图像模态差异,我们将图像和文本特征进行拼接,然后通过一个共享的网络统一处理视觉特征和文本特征,从而有利于网络学习到更多模态不变的特征表示;由于图像与文本特征的前两个维度(N和C)是相同的,因此只需对后两个维度(H和W)进行统一,这里我们选用全局最大池化来对H和W维度统一;对图像特征进行全局最大池化,得到其中对文本特征进行全局最大池化,得到其中其中然后我们使用“Concatenate”操作将图像特征和文本特征进行拼接,得到f
V+T
,其中最后,将f
V+T
送入CRG模块后得到特征f
V
'
+T
;通过“Concatenate”操作后,我们就可以通过一个共享的网络统一处理视觉特征和文本特征,从而有利于网络学习到更多模态不变的特征表示;图3所示,我们实验对比了全局最大池化(Global Max Pooling,GMP)和全局平均池化(Global Average Pooling,GAP)的实验性能;通过结果我们发现,GMP性能略高于GAP,因此,最终选择了GMP;我们选择理由是:如果我们期望所有特征图的信息都应该有所贡献,那么选择GAP效果将会更好,比如图像分类,语义分割等任务;如果我们期望提取到特征中响应最大、最强烈的部分来输入下一个阶段服务,同时也为了减少无用信息的影响,那么选择GMP效果将会更好;本发明期望获得显著而突出的特征表示,因此采用了GMP操作。4.根据权利要求1所述的方法,其特征在于步骤(3)中,图6为CSAM(不带残差的通道和空间注意模块)注意模块框图;图7为RCSAM(带残差的通道和空间注意模块)注意模块结构框图,RCSAM模块主要由通道注意模块(CAM)和空间注意模块(SAM)两个组成;在RCSAM模块中,输入特征首先进行“通道注意”操作,然后进行“空间注意”操作,最后将输出特征与输入特征相加后输出;相加操作在不增加额外参数和计算量的基础上,加快模块的训练速度,提升模型的训练效果;f
c
=ψ
c
(f)
ꢀꢀꢀꢀ
(1)f
s
=ψ
c
(f

)
ꢀꢀꢀꢀ
(2)(2)
其中表示逐个元素的加法,示逐个元素的乘积,ψ
c
表示通道注意操作,ψ
s
表示空间注意操作;在加法过程中,相应的传播(复制)注意值:通道注意值沿着空间维度传播,反之亦然;f

是最终的精炼输出;图4描述了每个注意图的计算过程;在图像分支网络上加入RCSAM注意模块,可以引导网络更好地关注图像中的目标对象;在文本分支上加入RCSAM注意模块,可以使网络更好地关注文本中的关键属性词语;同时,我们在共享CRG网络部分也增加了RCSAM模块,可以让网络更好地学习关注模态不变的特征表示;为了有效解释RCSAM的作用,我们实验可视化了RCSAM模块和CSAM模块输出的特征,通过图8(C)可以观察到,使用RCSAM后训练出的模型更加显著地关注到行人局部细节;图9所示,我们实验对比了CSAM和RCSAM两种模块对性能的影响;与CSAM相比,RCSAM模块在Rank

1提升了2.53%,mAP提升了1.86%,实验证明了带残差的通道和空间注意的RCSAM模块性能表现...

【专利技术属性】
技术研发人员:何小海刘强滕奇志陈洪刚卿粼波吴晓红
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1