一种基于知识转移的跨模态行人搜索方法及系统技术方案

技术编号：40422631 阅读：11 留言：0更新日期：2024-02-20 22:42

本发明专利技术提供一种基于知识转移的跨模态行人搜索方法及系统，涉及人工智能技术领域。所述方法包括以下步骤：获取基于文本的行人搜索数据集；构建基于知识转移的跨模态行人搜索模型M；将获得的行人搜索数据集分为训练集T、验证集V和测试集I，利用训练集T对跨模态行人搜索模型M中进行模型训练，训练阶段同时使用验证集V验证模型训练效果，最终训练完成获得模型M*；输入测试集I，将查询文本和所有候选图像输入到模型M*，输出查询文本和候选图像的嵌入向量，计算查询文本和所有候选图像嵌入向量之间的相似度，并根据相似度进行排序，获得相似度最高的候选图片，完成行人搜索。本发明专利技术缓解了图像和文本中的知识不平衡的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于知识转移的跨模态行人搜索方法及系统。

技术介绍

1、跨模态行人搜索旨在基于文本描述从大型图库中搜索相应的行人图像。该任务在寻找失踪人员、寻找嫌疑人等方面具有潜在的应用前景，正成为研究热点。作为一项跨模态检索任务，视觉和语言之间的模态异质性使跨模态行人搜索成为一项具有挑战性的任务。

2、跨模态行人搜索的关键在于图像和文本描述之间的跨模态对齐。早期的方法侧重于对齐图像和文本的全局特征。经典的共同表示学习方法，其主要目的是对齐全局图像和文本，以增强判别特征学习并提高测试计算效率。然而,这类方法无法有效地挖掘图像和文本的判别性局部细节，而这些细节是跨模态行人搜索的关键线索。随后的一些方法侧重于设计不同的组件(如姿态估计、属性分割和图像/文本分割)来显式的提取局部特征。提取局部特征的方法能够更准确地实现视觉和语言间的跨模态对齐。然而，这类方法需要额外的组件来提取局部特征，增加了计算成本。此外，准确提取每个人的局部特征是一个挑战，错误的局部特征会造成干扰。随后，姜定等人在文献“姜定,叶茫.面向跨模态文本到图像行人重识别的transformer网络中提出隐式地建立图像和文本之间的局部对齐的方法，提高了检索性能。但是，这些方法都同等的处理图像和文本，没有考虑到由于报道偏差而导致的图像和文本之间的知识不平衡。

技术实现思路

1、针对现有技术中存在的技术问题，本专利技术提供一种基于知识转移的跨模态行人搜索方法及系统，通过掩蔽语言建模隐式地利用细粒度的

2、根据本专利技术的第一方面，本专利技术提供一种基于知识转移的跨模态行人搜索方法，包括：

3、获取基于文本的行人搜索数据集；

4、构建基于知识转移的跨模态行人搜索模型m；所述跨模态行人搜索模型m包括：中间模态引导的知识转移模块，将中间模态的知识转移到文本模态中，补充文本特征的身份信息，利用文本信息抑制图像特征中包含的与人无关的信息；

5、将获得的行人搜索数据集分为训练集t、验证集v和测试集i，利用训练集t对跨模态行人搜索模型m中进行模型训练，训练阶段同时使用验证集v验证模型训练效果，最终训练完成获得模型m*；

6、输入测试集i，将查询文本和所有候选图像输入到模型m*，输出查询文本和候选图像的嵌入向量，计算查询文本和所有候选图像嵌入向量之间的相似度，并根据相似度进行排序，获得相似度最高的候选图片，完成行人搜索。

7、在上述技术方案的基础上，本专利技术还可以作出如下改进。

8、可选的，所述构建基于知识转移的跨模态行人搜索模型m包括：

9、s21、使用图像和文本编码器作为网络的特征提取器，分别提取图像、文本的特征；

10、s22、对图像特征进行维度调整，将调整维度后的图像特征送入编码器层，利用不同图像中人物排列规律的共性来强调与人相关的特征，抑制与人无关的特征；

11、s23、利用跨模态融合模块来学习中间模态特征，将强调的图像特征和文本特征拼接起来作为跨模态融合模块的输入，并添加一个随机初始化的可学习标记，用于学习中间模态特征；

12、s24、计算跨模态行人搜索模型m的总体训练损失。

13、可选的，所述计算跨模态行人搜索模型m的总体训练损失代入以下公式；

14、

15、其中，表示为中间模态到文本的知识转移，表示为中间模态到图像的知识转移，表示掩码建模损失，表示图像文本匹配损失，表示身份分类损失。

16、可选的，所述中间模态引导的知识转移包括：将中间模态到文本的知识转移将图像知识转移到文本特征上；还包括中间模态到图像的知识转移利用文本信息抑制图像特征中包含的与人无关的信息。

17、可选的，所述将中间模态到文本的知识转移计算为：

18、

19、其中，φ表示余弦相似度函数，funi表示为中间模态特征，τ表示温度系数，teos表示文本特征。

20、可选的，所述中间模态到图像的知识转移计算为：

21、

22、其中，φ表示余弦相似度函数，funi表示为中间模态特征，τ表示温度系数，vcls表示采用clip预训练的vit模型来获取的图像特征。

23、可选的，所述利用训练集t对跨模态行人搜索模型m中进行模型训练，训练阶段同时使用验证集v验证模型训练效果，最终训练完成获得模型m*包括以下步骤：

24、提取图像、文本特征和掩码处理后的文本特征；

25、将图像特征进行特征增强，得到增强后的图像特征；

26、得到增强后的图像特征和掩码处理的文本特征后，构建中间模态来引导跨模态知识转移，获取中间模态特征来进行模态之间的知识转移。

27、根据本专利技术的第二方面，提供一种基于知识转移的跨模态行人搜索系统，包括：

28、数据获取模块，用于输入图像文本数据，获取基于文本的行人搜索数据集；

29、跨模态行人搜索模型构建模块，用于构建基于知识转移的跨模态行人搜索模型m；所述跨模态行人搜索模型m包括：中间模态引导的知识转移模块，将中间模态的知识转移到文本模态中，补充文本特征的身份信息，利用文本信息抑制图像特征中包含的与人无关的信息；

30、模型训练模块，用于将获得的基于文本的行人搜索数据集a分为训练集t、验证集v和测试集i，利用训练集t对步骤s2设计的模型m中进行模型训练，训练阶段同时使用验证集v验证模型训练效果，最终训练完成获得模型m*；

31、模型测试模块，输入测试集i，将查询文本和所有候选图像输入到模型m中的图像和文本特征提取器e中，输出查询文本和候选图像的嵌入向量，计算查询文本和所有候选图像嵌入向量之间的相似度，并根据相似度进行排序，获得相似度最高的候选图片，完成行人搜索。

32、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于知识转移的跨模态行人搜索方法。

33、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于知识转移的跨模态行人搜索方法。

34、本专利技术的技术效果和优点：

35、本专利技术提供的一种基于知识转移的跨模态行人搜索方法及系统，利用中间模态引导跨模态知识转移来平衡图像和文本之间的知识，缓解了由报道偏差而导致的图像和文本中的知识不平衡的问题，从而提高了行人搜索的性能。

本文档来自技高网...

【技术保护点】

1.一种基于知识转移的跨模态行人搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述构建基于知识转移的跨模态行人搜索模型M包括：

3.根据权利要求2所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述计算跨模态行人搜索模型M的总体训练损失代入以下公式：

4.根据权利要求1所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述中间模态引导的知识转移包括：将中间模态到文本的知识转移将图像知识转移到文本特征上；还包括中间模态到图像的知识转移利用文本信息抑制图像特征中包含的与人无关的信息。

5.根据权利要求4所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述将中间模态到文本的知识转移计算为：

6.根据权利要求4所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述中间模态到图像的知识转移计算为：

7.根据权利要求1所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述利用训练集T对跨模态行人搜索模型M中进行模型训练，训

8.一种基于知识转移的跨模态行人搜索系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述一种基于知识转移的跨模态行人搜索方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于知识转移的跨模态行人搜索方法的步骤。

...

【技术特征摘要】

1.一种基于知识转移的跨模态行人搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述构建基于知识转移的跨模态行人搜索模型m包括：

3.根据权利要求2所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述计算跨模态行人搜索模型m的总体训练损失代入以下公式：

5.根据权利要求4所述的一种基于知识转移的跨模态行人搜索方法，其特征在于，所述将中间模态到文本的知识转移计算为：

6.根据权利要求4所述的一种基于知...

【专利技术属性】
技术研发人员：孙昊，游凯扬，谢伟，王成济，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人