当前位置: 首页 > 专利查询>武汉大学专利>正文

模态自适应的描绘性查询行人重识别方法及系统技术方案

技术编号:38331839 阅读:12 留言:0更新日期:2023-07-29 09:14
本申请公开了一种模态自适应的描绘性查询行人重识别方法及系统,方法包括以下步骤:搭建多模态特征学习的行人重识别架构网络模型;优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型;将训练集输入特征提取器优化后的行人重识别架构网络模型进行检索任务训练,并对网络参数进行更新,获取参数更新后的行人重识别架构网络模型;将待识别模态样本输入参数更新后的行人重识别架构网络模型进行模态识别,获取目标行人。本申请提供的模态自适应的描绘性行人重识别方法,能够自适应处理多种描绘性模态,适应实际场景中模态不确定问题,拓宽行人重识别模型的应用场景。拓宽行人重识别模型的应用场景。拓宽行人重识别模型的应用场景。

【技术实现步骤摘要】
模态自适应的描绘性查询行人重识别方法及系统


[0001]本申请涉及图像识别和检索
,具体是涉及一种模态自适应的描绘性查询行人重识别方法及系统。

技术介绍

[0002]行人重识别(Person Re

identification,ReID)旨在实现跨摄像头场景下的目标行人检索识别。该技术广泛应用于智能视频监控、智能安防等
现有的研究主要是基于图片查询的行人重识别,即利用行人照片/视频来检索不同摄像头下的目标行人照片/视频。然而,在许多刑事案件中,由于无法及时获取嫌疑人的照片,案件侦查人员通过收集目击者关于嫌疑人的文本描述口供或根据口供绘制行人素描(描绘性模态)的方式来获得嫌疑人信息。因此,有研究者提出利用目击者的文本口供、行人素描或者联合文本口供和素描来检索监控环境下的目标行人图像,即基于描绘性查询的行人重识别。
[0003]目前,大多数基于文本或基于素描的行人重识别方法依赖其中一种数据模态作为查询集来完成行人图像的检索任务。虽然文本模态的数据相对容易获取,但它不能准确地描述视觉外观的细节。由于每种模态的训练任务都是独立的,模型不能从一种模态泛化到另一种未知的模态。例如,在基于文本的数据集上训练的ReID模型在基于素描的场景上基本上是无效的,反之亦然。由于模态类型的不同,导致模型的泛化能力差,这一问题限制了模型在实际部署中的适用性。另一方面,Zhai等人提出多模态融合的行人重识别,即联合使用素描和文本作为查询来检索目标行人,有效提升了模型检索准确率。然而,该方法采用独立的文本和图像的预训练参数进行多模态表征学习,其通用性差。此外,在实际监控场景中,难以确定文本或者素描是否可用,即存在模态缺失问题。由于任务的独立训练,现有的跨模态或多模态ReID(Person Re

identification,行人重识别)英文全称以及中文解释)方法不能很好解决该问题。一个智能的监控系统应该能够有效地处理各种模态信息。

技术实现思路

[0004]本申请的目的是为了克服上述
技术介绍
的不足,提供一种模态自适应的描绘性查询行人重识别方法及系统。
[0005]第一方面,本申请提供一种模态自适应的描绘性查询行人重识别方法,包括以下步骤:
[0006]S1、搭建多模态特征学习的行人重识别架构网络模型,行人重识别架构网络模型包括采用ViT网络的编码器作为素描模态和RGB图像模态的特征提取器,以及采用Transformer网络作为文本模态的特征提取器;
[0007]S2、采用任务特定损失、跨模态交互损失和任务感知的动态训练方法联合优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型;
[0008]S3、获取多模态数据集,将多模态数据集划分为训练集和测试集,将训练集输入特征提取器优化后的行人重识别架构网络模型进行检索任务训练,并对网络参数进行更新,
获取参数更新后的行人重识别架构网络模型;
[0009]S4、将获取的待识别模态样本输入参数更新后的行人重识别架构网络模型进行模态识别,获取目标行人。
[0010]根据第一方面,在第一方面的第一种可能的实现方式中,所述S2、采用任务特定损失、跨模态交互损失和任务感知的动态训练方法联合优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型步骤,具体包括以下步骤:
[0011]S21、采用任务特定的模态学习方法获取任务特定的模态学习损失函数;
[0012]S22、赋予每一类检索训练任务的模态学习损失函数以动态变化的权重,获取增加了调制因子后的任务特定的模态学习损失函数;
[0013]S23、通过获取的增加了调制因子后的任务特定的模态学习损失函数优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型。
[0014]根据第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述S21、采用任务特定的模态学习方法获取任务特定的模态学习损失函数步骤,具体包括以下步骤:
[0015]获取样本对第一检索损失函数和样本对第二检索损失函数;
[0016]根据获取的样本对第一检索损失函数和样本对第二检索损失函数,获取任务特定的模态学习损失函数。
[0017]根据第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述赋予每一类检索训练任务的模态学习损失函数以动态变化的权重,获取增加了调制因子后的任务特定的模态学习损失函数步骤,具体包括以下步骤:
[0018]获取素描检索RGB(R:Red;G:Green;B:Blue,可见光图)英文全称和中文释义是什么)任务的预测置信度 和文本检索RGB任务的预测置信度;
[0019]根据获取素描检索RGB任务的预测置信度 和文本检索RGB任务的预测置信度,获取调制因子;
[0020]根据获取的调制因子,获取增加了调制因子后的任务特定的模态学习损失函数。
[0021]根据第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述获取素描检索RGB任务的预测置信度和文本检索RGB任务的预测置信度步骤,具体包括以下步骤:
[0022]依据特定任务的模态损失,素描检索RGB任务预测置信度p
SR
(i)和文本检索RGB任务的预测置信度p
TR
(i)公式如下所示:
[0023][0024][0025]根据第一方面的第三种可能的实现方式,在第一方面的第五种可能的实现方式中,所述根据获取素描检索RGB任务的预测置信度p
SR
(i) 和文本检索RGB任务的预测置信度p
TR
(i),获取调制因子步骤,具体包括以下步骤:
[0026]获取素描检索RGB任务和文本检索RGB任务的置信度调和平均值;
[0027]将获取的置信度调和平均值乘以文本检索RGB任务的预测置信度,获取调制因子。
[0028]根据第一方面的第三种可能的实现方式,在第一方面的第六种可能的实现方式
中,所述根据获取的调制因子,获取增加了调制因子后的任务特定的模态学习损失函数步骤,具体包括以下步骤:
[0029]将获取的调制因子,根据侠士进行数值变化,获取增加了调制因子后的任务特定的模态学习损失函数:
[0030][0031][0032]其中,α
t
和γ为控制损失曲线下降趋势的第一超参数和第二超参数,为素描检索RGB任务的模态损失函数,为文本检索RGB任务的模态损失函数。
[0033]根据第一方面的第三种可能的实现方式,在第一方面的第七种可能的实现方式中,所述获取多模态数据集,将多模态数据集划分为训练集和测试集,将训练集输入特征提取器优化后的行人重识别架构网络模型进行检索任务训练,并对网络参数进行更新,获取参数更新后的行人重识别架构网络模型步骤之后,还包括以下步骤:
[0034]将测试集输入参数更新后的行人重识别架构网络模型,获取行人重识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模态自适应的描绘性查询行人重识别方法,其特征在于,包括以下步骤:搭建多模态特征学习的行人重识别架构网络模型,行人重识别架构网络模型包括采用ViT网络的编码器作为素描模态和RGB图像模态的特征提取器,以及采用Transformer网络作为文本模态的特征提取器;采用任务特定损失、跨模态交互损失和任务感知的动态训练方法联合优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型;获取多模态数据集,将多模态数据集划分为训练集和测试集,将训练集输入特征提取器优化后的行人重识别架构网络模型进行检索任务训练,并对网络参数进行更新,获取参数更新后的行人重识别架构网络模型;将待识别模态样本输入参数更新后的行人重识别架构网络模型进行模态识别,获取目标行人。2.如权利要求1所述的模态自适应的描绘性查询行人重识别方法,其特征在于,所述采用任务特定损失、跨模态交互损失和任务感知的动态训练方法联合优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型步骤,具体包括以下步骤:采用任务特定的模态学习方法获取任务特定的模态学习损失函数;赋予每一类检索训练任务的模态学习损失函数以动态变化的权重,获取增加了调制因子后的任务特定的模态学习损失函数;通过获取的增加了调制因子后的任务特定的模态学习损失函数优化特征提取器,获取特征提取器优化后的行人重识别架构网络模型。3.如权利要求2所述的模态自适应的描绘性查询行人重识别方法,其特征在于,所述采用任务特定的模态学习方法获取任务特定的模态学习损失函数步骤,具体包括以下步骤:获取样本对第一检索损失函数和第二检索损失函数;根据获取的样本对第一检索损失函数和样本对第二检索损失函数,获取任务特定的模态学习损失函数。4.如权利要求2所述的模态自适应的描绘性查询行人重识别方法,其特征在于,所述赋予每一类检索训练任务的模态学习损失函数以动态变化的权重,获取增加了调制因子后的任务特定的模态学习损失函数步骤,具体包括以下步骤:获取素描检索RGB任务的预测置信度 和文本检索RGB任务的预测置信度;根据获取素描检索RGB任务的预测置信度 和文本检索RGB任务的预测置信度,获取调制因子;根据获取的调制因子,获取增加了调制因子后的任务特定的模态学习损失函数。5.如权利要求4所述的模态自适应的描绘性查询行人重识别方法,其特征在于,所述获取素描检索RGB任务的预测置信度和文本检索RGB任务的预测置信度步骤,具体包括以下步骤:依据特定任务的模态损失,素描检索RGB任务预测置信度p
SR
(i)和文本检索RGB任务的预测置信度p
TR
(i)公式如下所示:(i)公式如下所示:
6.如权利要求4所述的模态自适应的描绘性查询行人重识别方法,其特征在于,所述根据获取素描检索RGB任务的预测置信度p
SR...

【专利技术属性】
技术研发人员:李舒嘉叶茫陈翠群
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1