无监督跨模态行人检索方法和装置制造方法及图纸

技术编号：41305826 阅读：5 留言：0更新日期：2024-05-13 14:51

本申请公开了一种无监督跨模态行人检索方法和装置，涉及计算机视觉领域，可以减少源域(带标签数据集)和目标域(无标签数据集)之间的领域偏差，提高模型在目标域下的检索性能。所述方法包括：确定初始模型，采用带标签数据集中的多个带标签样本对初始模型进行模型参数更新，得到预训练模型；将无标签数据集中的多个无标签样本输入至预训练模型进行特征提取，得到多个无标签特征向量；基于多个无标签特征向量，为多个无标签样本分配伪标签，得到伪标签数据集，并采用伪标签数据集，对预训练模型进行无监督损失训练，得到跨模态行人检索模型；采用跨模态行人检索模型对目标域下的待检索行人图片进行跨模态行人图片检索，得到检索排名结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉领域，特别是涉及一种无监督跨模态行人检索方法和装置。

技术介绍

1、随着基于深度学习的计算机视觉的快速发展，基于深度网络的自动检索方法逐步取代人力观看视频以检索目标行人。在真实场景中，为了避免可见光摄像头在夜间无法清晰成像，导致无法检索到目标行人的全部活动轨迹的情况，检索系统通常在光照条件充足时使用可见光摄像头，在光线条件较差时切换至红外摄像头，以实现24小时的持续清晰成像。然而红外摄像头和可见光摄像头接收光的波长不一致，导致红外摄像头拍摄到的缺失颜色信息的红外光行人图片与具有颜色信息的可见光行人图片存在模态差异，从而导致无法准确地使用红外光行人图片检索到可见光的行人图片，或准确地使用可见光行人图片检索到红外光的行人图片。

2、相关技术中，为了解决跨模态行人检索的问题，研究人员通过人工标注同身份的跨模态行人图片的方式，构建带标签的跨模态数据集，然后利用表征学习和度量学习以有监督的方式进行模型的训练以缩小模态间差异，进而实现准确的跨模态行人检索。

3、在实现本申请的过程中，申请人发现相关技术至少存在以下问题：

4、在机器学习和计算机视觉领域中，不同域之间存在环境、光照、摄像角度等方面的差异，利用源域数据训练的模型在目标域下的跨模态行人检索准确度骤降，因此在训练目标域模型时，需要重新对目标域的样本图片进行人工标注，采用标注后的目标域样本对模型进行训练，从而导致目标域部署模型效率低、成本高。

技术实现思路

1、有鉴于此，本申请提供了

2、依据本申请第一方面，提供了一种无监督跨模态行人检索方法，该方法包括：

3、确定初始模型，采用带标签数据集中的多个带标签样本对所述初始模型进行模型参数更新，得到预训练模型，所述带标签样本为源域下的图片样本；

4、将无标签数据集中的多个无标签样本输入至所述预训练模型进行特征提取，得到多个无标签特征向量，所述无标签样本为目标域下的图片样本；

5、基于多个所述无标签特征向量，为多个所述无标签样本分配伪标签，得到伪标签数据集，并采用所述伪标签数据集，对所述预训练模型进行无监督损失训练，得到跨模态行人检索模型；

6、采用所述跨模态行人检索模型对所述目标域下的待检索行人图片进行跨模态行人图片检索，得到检索排名结果，将所述检索排名结果发送至展示终端进行展示。

7、可选地，所述确定初始模型，包括：

8、采用残差网络resnet-50作为骨干网络，并采用图像分类数据集imagenet中的预训练参数对所述骨干网络进行初始化；

9、将所述骨干网络修改为双流网络，得到所述初始模型，所述初始模型接收到可见光模态图片和红外光模态图片后，在第一层网络不共享网络参数，在第二层网络至最后一层网络中共享网络参数，输出可见光模态特征向量和红外光模态特征向量。

10、可选地，所述方法还包括：

11、获取所述源域下的多个初始标注样本以及所述目标域下的多个初始无标注样本，对所述多个初始标注样本和所述多个初始无标注样本进行像素归一化处理，得到多个第一待处理标注样本和多个第一待处理无标注样本；

12、将多个所述第一待处理样本和多个所述第二待处理样本的图片尺寸统一调整为预设尺寸，得到多个第二待处理标注样本和多个第二待处理无标注样本；

13、将多个所述第二待处理标注样本和多个所述第二待处理无标注样本中的红外光模态图片的像素值复制为3通道，得到多个第三待处理标注样本和多个第三待处理无标注样本，以及对多个所述第三待处理标注样本和所述第三待处理无标注样本进行数据增广处理，并转化为目标数据格式，得到所述带标签样本和多个所述无标签样本；

14、聚合所述多个所述带标签样本得到所述带标签数据集，聚合多个所述无标签样本得到所述无标签数据集。

15、可选地，所述采用带标签数据集中的多个带标签样本对所述初始模型进行模型参数更新，得到预训练模型，包括：

16、在所述带标签数据集对应的多个身份种类中选择预设数目个身份种类；

17、对于每个身份种类，在所述带标签数据集中任意选取指定数目个与所述身份种类匹配的指定带标签样本作为第一训练样本子集；

18、为选取的每个身份种类确定第一训练样本子集，并聚合每个身份种类对应的第一训练样本子集，得到第一训练样本集；

19、将所述第一训练样本集中的第一训练样本输入至所述初始模型进行特征提取，得到每个训练样本对应的特征向量；

20、将每个第一训练样本对应的特征向量输入至预设分类器中确定所述特征向量对应的身份预测得分，并采用归一化函数softmax函数对身份预测得分进行编码，得到每个所述特征向量对应的第一训练样本的身份预测概率，所述身份预测概率包括每种身份种类对应的子概率；

21、根据三元组损失函数对每个第一训练样本对应的特征向量进行损失计算，根据损失梯度更新所述初始模型的模型参数；

22、根据交叉熵损失函数对每个第一训练样本的身份预测概率进行损失计算，根据损失梯度更新所述初始模型的模型参数；

23、持续确定新的第一训练样本集对所述初始模型的模型参数进行更新，直至初始模型收敛，得到所述预训练模型。

24、可选地，所述基于多个所述无标签特征向量，为多个所述无标签样本分配伪标签，包括：

25、根据特征向量的模态，将多个所述无标签特征向量划分为可见光模态特征向量和红外光模态特征向量；

26、采用密度聚类算法，将所述可见光模态特征向量划分为多个可见光类簇，将红外光模态特征向量划分为多个红外光类簇；

27、计算每个可见光类簇和每个红外光类簇的代理特征，根据每个可见光类簇和每个红外光类簇的代理特征，计算每个可见光类簇与全部红外光类簇之间的余弦相似度，并根据余弦相似度计算每个可见光类簇与全部红外光类簇之间的匹配代价，得到匹配代价矩阵；

28、使用匈牙利算法对所述匹配代价矩阵进行计算，以全局最低的匹配代价将红外光类簇划分至可见光类簇，得到多个目标类簇，将所述每个目标类簇中的全部目标无标签特征向量对应的全部无标签样本划分为同一伪身份，并为全部所述无标签样本分配同一伪标签。

29、可选地，所述采用所述伪标签数据集，对所述预训练模型进行无监督损失训练，得到跨模态行人检索模型，包括：

30、在所述伪标签数据集对应的多个伪身份种类中选择预设数目个伪身份种类；

31、对于选取的每个伪身份种类，在所述伪标签数据集中任意选取指定数目个与所述伪身份种本文档来自技高网...

【技术保护点】

1.一种无监督跨模态行人检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定初始模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述采用带标签数据集中的多个带标签样本对所述初始模型进行模型参数更新，得到预训练模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于多个所述无标签特征向量，为多个所述无标签样本分配伪标签，包括：

6.根据权利要求1所述的方法，其特征在于，所述采用所述伪标签数据集，对所述预训练模型进行无监督损失训练，得到跨模态行人检索模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述采用所述跨模态行人检索模型对所述目标域下的待检索行人图片进行跨模态行人图片检索，得到检索排名结果，将所述检索排名结果发送至展示终端进行展示，包括：

8.一种无监督跨模态行人检索装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种无监督跨模态行人检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定初始模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述采用带标签数据集中的多个带标签样本对所述初始模型进行模型参数更新，得到预训练模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于多个所述无标签特征向量，为多个所述无标签样本分配伪标签，包括：

6.根据权利要求1所述的方法，其特征在于，所述采用所述伪标签数据集，对所述预训练模型进行无监督损失训练，得到跨模态行...

【专利技术属性】
技术研发人员：邓校君，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人