基于判别性特征学习与样本关系辅助的文本-行人图像检索方法技术

技术编号：40644692 阅读：4 留言：0更新日期：2024-03-13 21:25

本发明专利技术涉及基于判别性特征学习与样本关系辅助的文本‑行人图像检索方法，属行人重识别领域。本发明专利技术包括：获取文本描述和行人图像数据，并对图像进行预处理；构建特征提取网络，将预处理好的文本和行人图像分别送入各自模态的特征提取网络；构建判别性特征学习模块，在图像和文本原始特征中挖掘更多的判别性特征；构建样本关系辅助的特征表示模块，充分利用单模态内样本间的关系来优化特征表示；ViT和BERT分别提取的图像和文本特征输入判别性特征学习和样本关系辅助的特征表示模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。本发明专利技术通过挖掘身份判别性特征以及进行特征优化，提升了文本‑行人图像的检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，属于行人重识别。

技术介绍

1、文本-行人图像检索是指利用文本描述来检索具有特定外观的行人图像。在某些场景下，无法获取可靠的待搜索对象视觉信息，比如在安防领域中搜索指定嫌疑人图像时，若没有犯罪分子的照片，只能根据目击证人的文本描述搜索可能的犯罪嫌疑人。这就需要算法和模型在训练中能对文本和视觉这两种信息进行恰当地处理，以求在只有文本作为检索信息的情况下，模型能够搜索到对应的行人图像。然而，现有方法仍存在一些问题，比如由于未精心设计特征提取网络，难以挖掘到图像和文本中更多利于身份判别的判别性特征，未考虑相同身份的文本描述多样性带来的干扰。针对以上问题，提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

技术实现思路

1、为了解决现有方法的不足，本专利技术针对现有方法对判别性特征提取不够深入，以及文本多样性对检索性能带来的扰动，提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法。

2、本专利技术的技术方案是：基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，所述方法的具体步骤如下：

3、step1：获取行人文本描述和行人图像数据，并对图像进行预处理；

4、step2：构建文本和图像的特征提取网络，分别提取图像和文本的原始特征；

5、step3：构建判别性特征学习模块，挖掘图像和文本之间深层的模态无关的身份相关信息，即判别性特征，提升特征的表达能力；

6、step4：构建样本关系辅助的特征表示模块，利用同一batch内的样本特征来更新每个样本的特征表示，对特征进行优化，缓解相同身份行人的文本多样性带来的干扰；

7、step5：训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块。所述step5具体包括为：

8、step51、利用adam优化器对特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块中的参数进行优化；

9、step52、采用cmpm和cmpc损失函数优化图像和文本的特征提取网络，所述损失函数如下：

10、

11、其中，和分别表示图像到文本的cmpm和cmpc损失函数，和分别表示文本到图像的cmpm和cmpc损失函数，vi,c和ti,c分别表示图像和文本特征提取网络输出特征vi和ti的class token特征。

12、step53、采用l2损失函数和id损失函数对判别性特征学习模块的参数进行优化，所述损失函数为：

13、

14、

15、

16、其中，avgpool表示平均池化，ce(·)为交叉熵损失函数，和分别表示特征和的class token特征，和分别表示特征和的class token特征。

17、step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数，该函数对整个网络的最终输出特征进行匹配约束，拉近图像和文本匹配对，以及推远图像和文本不匹配对。

18、采用cmpm和cmpc损失函数优化整个网络：

19、

20、其中和分别表示图像到文本的cmpm和cmpc损失函数，和分别表示文本到图像的cmpm和cmpc损失函数。

21、总损失为：

22、

23、step6：训练好的特征提取网络分别提取的图像和文本特征输入训练好的判别性特征学习和样本关系辅助的特征表示模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。

24、进一步地，所述step1中，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

25、进一步地，所述step2中的特征提取网络包括文本特征提取网络bert和图像特征提取网络vit，分别提取文本和图像原始特征。

26、进一步地，所述step2中特征提取网络具体操作过程如下：

27、预处理好的行人图像vi首先被划分为尺寸大小相等且互不重叠的n个图像块；对每个图像块进行向量化，再经过一个线性映射，然后与一个分类token拼接得到并将其作为vit的输入；经过vit后得到图像的输出特征记为d表示token的维度；

28、给定一个文本描述ti，先将文本中的m个单词编码为one-hot向量，即独热编码向量，再经过单词嵌入变换得到文本表示，然后与文本分类token拼接得到将输入bert得到的文本特征表示为

29、进一步地，所述step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判别性特征。

30、进一步地，所述step3中，判别性特征学习的第一部分具体操作步骤如下：

31、该模块包含一条主路和两条支路(图像支路和文本支路)，测试的时候只使用两条支路，其输入为图像编码器和文本编码器的输出特征vi和ti。

32、在主路中，图像特征和文本特征先经过一个反注意力模块得到共有信息和非共有信息，共有信息计算过程如下：

33、

34、

35、非共有信息计算过程如下：

36、

37、

38、非共有信息和分别经过transformer层ev和et进一步提取判别性特征：

39、

40、

41、使用id损失约束补充信息和使其具有较强的判别性。其中，wq,t、wk,v、wv,v、wq,v、wk,t均表示线性映射矩阵；

42、在支路中，图像编码器的输出特征vi和文本编码器的输出特征ti分别经过transformer层，这里的transformer层与主路中的transformer层ev和et参数共享，得到的特征加上原始特征即为该模块的输出：

43、

44、

45、进一步地，所述step3中，判别性特征学习的第二部分具体操作步骤如下：

46、将中与输入一个反注意力模块，从中去除与相关的信息，得到的剩余信息为：

47、

48、

49、使用id损失约束剩余信息和使其具有较强的判别性。

50、进一步地，所述step4中，样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示，在训练阶段处理两个模态的特征时网络的参数共享，在推理阶段只对文本特征进行处理。

51、进一步地，所述step4中，样本关系辅助的特征表示具体操作步骤如下：

52、以setp3获得的输出特征中的分类token为输入，计算其与另一样本特征之间的余弦相似度：

53、

54、其中，为线性映射矩阵。

55、对于图像来说，权重为余弦相似度经过softmax后本文档来自技高网...

【技术保护点】

1.基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于：所述Step1中包括，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

3.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT，分别提取文本和图像原始特征。

4.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step2中特征提取网络具体操作过程如下：

5.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判别性特征。

6.根据权利要求1所述的基于判别性特征学习与样

7.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step3中，判别性特征学习的第二部分具体操作步骤如下：

8.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step4中，样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示，在训练阶段处理两个模态的特征时网络的参数共享，在推理阶段只对文本特征进行处理。

9.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step4中，样本关系辅助的特征表示具体操作步骤如下：

10.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step5具体包括为：

...

【技术特征摘要】

1.基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于：所述step1中包括，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

3.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述step2中的特征提取网络包括文本特征提取网络bert和图像特征提取网络vit，分别提取文本和图像原始特征。

4.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述step2中特征提取网络具体操作过程如下：

5.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判...

【专利技术属性】
技术研发人员：杨社丹，许乐，李华锋，张亚飞，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人