一种类级别对比学习的弱监督文本行人检索方法及系统技术方案

技术编号:39175705 阅读:9 留言:0更新日期:2023-10-27 08:23
本申请属于图像处理领域,尤其涉及一种类级别对比学习的弱监督文本行人检索方法及系统,用于包括但不限于电梯、街道、商场等一切具有行人的场景,通过输入自然语言描述对行人图像或视频进行检索,该方法采用CLIP的预训练模型来提取图像和文本的特征,并使用了离异样本挖掘算法来挖掘其中有价值的聚类离异样本。之后根据聚类ID构建类级别的多模态记忆模块,该模块在训练过程中会动态更新。训练时,混合级别的跨模态匹配模块从类级别和实例级别两个角度拉近同类图像和文本之间的距离,推远不同类图像和文本之间的距离。本发明专利技术大幅度提高了弱监督条件下文本行人检索的准确率。弱监督条件下文本行人检索的准确率。弱监督条件下文本行人检索的准确率。

【技术实现步骤摘要】
一种类级别对比学习的弱监督文本行人检索方法及系统


[0001]本申请属于图像处理领域,尤其涉及一种类级别对比学习的弱监督文本行人检索方法及系统。

技术介绍

[0002]近年来,行人检索受到了广泛关注,在智能视频监控领域具有重要的应用价值。该任务的目标是给定一个查询,如一张行人的照片或者对该行人的文本描述,然后从数据库中检索出相应的行人图像。根据查询数据的类型,行人检索可以分为:基于图像的行人检索和基于文本的行人检索。其中,基于图像的行人检索至少需要一张感兴趣的行人图像作为一个查询,而在现实情况下,感兴趣的行人图像往往是难以获得的。
[0003]当前,基于文本的行人检索任务往往采用有监督的方式来训练模型。这意味着除了行人图像和对应的行人文本描述之外,人们还需要对行人的ID进行标注,这无异于增加了大量的人力成本,提高了基于文本的行人检索的应用门槛。弱监督文本行人检索所面临的难题,除了包含有监督文本行人检索所面临的如何跨越文本和图像两种不同模态的数据差异之外,还包含在没有行人ID信息指引的情况下,模型如何检索不同摄像头下,光照变化、遮挡、视角变化、低分辨率等干扰下的同一行人的所有图像。现有方法虽然在一定程度上缓解了上述两个问题,但是效果欠佳。首先,之前的工作采用了单模态下的预训练模型来作为主干网络,如图像编码器采用在ImageNet上训练的ResNet网络,文本编码器采用BERT等等。预训练对于文本行人检索任务是非常重要的,采用单模态预训练的模型缺乏必要的文本和图像之间的跨模态对齐能力,这影响了最终的模型性能。其次,之前的工作大多使用了实例级别的跨模态损失函数,忽略了检索同一个人的所有图像的最终目标。

技术实现思路

[0004]为了克服现有技术的不同,本专利技术提供了一种类级别对比学习的弱监督文本行人检索方法,用于包括但不限于电梯、街道、商场等一切具有行人的场景,通过输入自然语言描述对行人图像或视频进行检索。其技术方案为:一种类级别对比学习的弱监督文本行人检索方法,包括以下步骤:S1.使用CLIP模型的图像编码器和文本编码器来提取图像特征和文本特征;S2.使用聚类算法对图像特征和文本特征进行聚类;S3.根据图像和文本之间的对应关系,挖掘聚类离异样本中的有价值样本;S4.根据聚类ID计算出图像的类中心特征和文本的类中心特征,并保存到各自模态的记忆模块中;S5.分别计算类级别的跨模态对比匹配损失和实例级别的跨模态投影损失,获得混合级别跨模态匹配损失,S6.采用梯度更新的方式更新CLIP模型参数,训练结束后保存保存图像编码器和文本编码器参数;
S7.使用时采用步骤S6中的图像编码器和文本编码器参数提取图像和文本特征,之后计算图像特征和文本特征之间的余弦相似度,根据相似度对待检索的行人图像进行排序,并返回排序的结果。
[0005]优选的,步骤S2中,用聚类算法分别对图像特征和文本特征进行聚类,得到聚类标签和,为第i张图像的聚类ID;为第i个文本的聚类ID;对于聚类离异样本,标签都是。
[0006]优选的,步骤S3中,挖掘图像离异样本,具体步骤如下:S31.假设第个图像的离异样本表示为,根据图像和文本之间的对应关系,找到所有与配对的文本描述,并过滤掉其中的文本离异样本后,得到一个文本描述集合,表示有个文本描述与配对且这些文本样本具有聚类标签;S32. 根据图像和文本之间的对应关系,遍历中的所有文本描述,找到与之配对的图像样本,得到一个已聚类的图像集合;S33. 计算图像离异样本到集合中所有图像样本的距离,并对集合中的所有样本进行排序;S34.依次遍历集合中的所有样本,如果该样本不是离异样本,那么就将图像离异样本的聚类标签由改成样本的聚类ID,并结束遍历;否者继续遍历;如果遍历完集合的所有样本后,依旧为离异样本,则说明不值得继续挖掘,并放弃该样本的挖掘,继续挖掘下一个图像离异样本,直到对所有的图像离异样本都进行了尝试,则图像离异样本挖掘结束。
[0007]优选的,步骤S3中,挖掘文本离异样本,具体步骤如下:S3

1. 假设第i个文本离异样本表示为,据图像和文本之间的对应关系,找到与配对的图像;如果图像也是离异样本,那么结束对样本的挖掘,依旧保持离异样本的状态,并遍历下一个文本离异样本;如果图像是已聚类样本,那么继续进行下一步;S3

2. 根据一个图像可能和多个文本存在对应关系的情况,找到所有与图像配对的文本描述,得到一个文本描述集合,表示有个文本描述与图像配对;S3

3. 计算文本离异样本到集合中所有文本样本的距离,并对集合中的所有样本进行排序;S3

4.依次遍历集合中的所有样本,如果样本不是离异样本,那么就将文本离异样本的聚类标签由改成样本的聚类ID,并结束遍历;否者继续遍历;如果遍历完集合的所有样本后,依旧为离异样本,则说明样本不值得继续挖掘,并放弃该样本的挖掘,继续挖掘下一个文本离异样本,直到对所有的文本离异样本都进行了尝试,则文本离异样本挖掘结束。
[0008]优选的,步骤S4中,计算图像的类中心特征和文本的类中心特征,步骤如下:根据聚类标签,将同一类别的图像特征求和并取平均值,将得到的特征作为该图像类别的类中心特征,具体计算方式如下:
;其中表示第i个图像类别的类中心特征,表示第i个图像类别的所有样本的特征的集合,用来表示集合中图像样本的特征的数量;根据聚类标签,将同一类别的文本特征求和并取中间值,将得到的特征作为该文本类别的类中心特征,具体计算方式如下:;其中表示第i个文本类别的类中心特征,示第i个文本类别的所有样本的特征的集合,用来表示集合中文本样本的特征的数量;使用计算出的所有图像类中心特征和文本类中心特征,分别初始化类级别视觉记忆模块和类级别文本记忆模块;其中类级别视觉记忆模块存储了个图像的类中心特征,类级别文本记忆模块存储了个文本的类中心特征。
[0009]优选的,步骤S5中,总的类级别跨模态对比匹配损失计算步骤如下,给定一个由个行人图像特征和文本描述特征组成的小批量,图像到文本类中心的跨模态对比匹配损失计算方法如下:;其中为该小批量中某个图像样本的特征,表示和具有相同聚类ID的文本类中心特征,是图像可学习的温度系数;表示为第j个文本类别的类中心特征;文本到图像类中心的跨模态对比匹配损失计算方法如下:;其中为该小批量中某个文本样本的特征,表示和具有相同聚类ID的图像类中心特征,是文本可学习的温度系数;为第j个图像类别的类中心特征;总的类级别跨模态对比匹配损失。
[0010]优选的,步骤S5中,计算实例级别的跨模态投影损失:实例级别的跨模态投影损失图像特征投影到文本特征空间的损失和文本特征投影到图像特征空间的损失;
计算图像特征到文本特征的投影损失,具体步骤如下:给定一个由个行人图像特征和文本描述特征组成的小批量,对每个图像特征,这个小批量可以表示为,其中表示和属于同一个行人的图像特征、文本特征,表示表示和不匹配;和匹配的概率是可以定义为:;其中为可学习参数;在一个小批量中,匹配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种类级别对比学习的弱监督文本行人检索方法,其特征在于,包括以下步骤:S1.使用CLIP模型的图像编码器和文本编码器来提取图像特征和文本特征;S2.使用聚类算法对图像特征和文本特征进行聚类;S3.根据图像和文本之间的对应关系,挖掘聚类离异样本中的有价值样本;S4.根据聚类ID计算出图像的类中心特征和文本的类中心特征,并保存到各自模态的记忆模块中;S5.分别计算类级别的跨模态对比匹配损失和实例级别的跨模态投影损失,获得混合级别跨模态匹配损失,S6.采用梯度更新的方式更新CLIP模型参数,训练结束后保存保存图像编码器和文本编码器参数;S7.使用时采用步骤S6中的图像编码器和文本编码器参数提取图像和文本特征,之后计算图像特征和文本特征之间的余弦相似度,根据相似度对待检索的行人图像进行排序,并返回排序的结果。2.根据权利要求1所述的一种类级别对比学习的弱监督文本行人检索方法,其特征在于,步骤S2中,用聚类算法分别对图像特征和文本特征进行聚类,得到聚类标签和,为第i张图像的聚类ID;为第i个文本的聚类ID;对于聚类离异样本,标签都是。3.根据权利要求1所述的一种类级别对比学习的弱监督文本行人检索方法,其特征在于,步骤S3中,挖掘图像离异样本,具体步骤如下:S31.假设第个图像的离异样本表示为,根据图像和文本之间的对应关系,找到所有与配对的文本描述,并过滤掉其中的文本离异样本后,得到一个文本描述集合,表示有个文本描述与配对且这些文本样本具有聚类标签;S32. 根据图像和文本之间的对应关系,遍历中的所有文本描述,找到与之配对的图像样本,得到一个已聚类的图像集合;S33. 计算图像离异样本到集合中所有图像样本的距离,并对集合中的所有样本进行排序;S34.依次遍历集合中的所有样本,如果该样本不是离异样本,那么就将图像离异样本的聚类标签由改成样本的聚类ID,并结束遍历;否者继续遍历;如果遍历完集合的所有样本后,依旧为离异样本,则说明不值得继续挖掘,并放弃该样本的挖掘,继续挖掘下一个图像离异样本,直到对所有的图像离异样本都进行了尝试,则图像离异样本挖掘结束。4.根据权利要求1所述的一种类级别对比学习的弱监督文本行人检索方法,其特征在于,步骤S3中,挖掘文本离异样本,具体步骤如下:S3

1. 假设第i个文本离异样本表示为,据图像和文本之间的对应关系,找到与配对的图像;如果图像也是离异样本,那么结束对样本的挖掘,依旧保持离异样本的状态,并遍历下一个文本离异样本;如果图像是已聚类样本,那么继续进行下一步;S3

2. 根据一个图像可能和多个文本存在对应关系的情况,找到所有与图像配对的文本描述,得到一个文本描述集合,表示有个文本描述与图像配对;
S3

3. 计算文本离异样本到集合中所有文本样本的距离,并对集合中的所有样本进行排序;S3

4.依次遍历集合中的所有样本,如果样本不是离异样本,那么就将文本离异样本的聚类标签由改成样本的聚类ID,并结束遍历;否者继续遍历;如果遍历完集合的所有样本后,依旧为离异样本,则说明样本不值得继续挖掘,并放弃该样本的挖掘,继续挖掘下一个文本离异样本,直到对所有的文本离异样本都进行了尝试,则文本离异样本挖掘结束。5.根据权利要求1所述的一种类级别对比学习的弱监督文本行人检索方法,其特征在于,步骤S4中,计算图像的类中心特征和文本的类中心特征,步骤如下:根据聚类标签,将同一类别的图像特征求和并取平均值,将得到的特征作为该图像类别的类中心特征,具体计算方式如下:;其中表示第i个图像类别的类中心特征,表示第i个图像类别的所有样本的特征的集合,用来表示集合中图像样本的特征的数量;根据聚类标签,将同一类别的文本特征求和并取中间值,将得到的特征作为该文本类别的类中心特征,具体计算方式如下:;其中表示第i个文本类别的类中心特征,示第i个文本类别的所有样本的特征的集合,用来表示集合中文本样本的特征的数量;使用计算出的所有图像类中心特征和文本类中心特征,分别初始化类级别视觉记忆模块和类级别文本记忆模块;其中类级别视觉记忆模块存储了个图像的类中心特征,类级别文本记忆模块存储了个文本的类中心特征。6.根据权利要求1所述的一种类级别对比学习的弱监督文本行人检索方法,其特征在于,步骤S5中,总的类级别...

【专利技术属性】
技术研发人员:郑艳伟赵新鹏王鹏孙恩涛杜超于东晓
申请(专利权)人:上海新时达电气股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1