【技术实现步骤摘要】
本申请涉及计算机视觉,尤其涉及一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。
技术介绍
1、文本到图像行人检索(text-to-imagepersonretrieval,tipr)是一项以自然语言描述作为查询条件,从大规模行人图像库中定位目标行人的跨模态检索技术。相较于依赖结构化图像查询的行人重识别(personre-identification,re-id),tipr具有查询方式自由灵活、对使用者专业要求低等优势,可在公共安全、智慧城市等场合提供快速精准的目标搜寻能力,因而受到学术界与产业界广泛关注。
2、为了实现图像与文本模态之间的有效对齐,现有tipr研究主要沿全局匹配与局部匹配两条路径展开。全局匹配方法通过构造跨模态损失函数直接对齐整幅图像与完整文本句子的嵌入向量,算法简单但忽略细粒度差异。局部匹配方法进一步将行人图像区域与文本片段逐一对应,从而增强对服饰颜色、携带物体等细节的辨识能力;其中显式局部匹配借助外部检测或分词模块完成区域对齐,推理阶段计算量大,而隐式局部匹配通过注意力机制在网络内部隐式学习区域对应
...【技术保护点】
1.一种基于软标签的噪声鲁棒文本到图像行人检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将训练集中的行人图像与对应文本描述分别输入图像编码器和文本编码器,得到图像全局特征与文本全局特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述图像全局特征与所述文本全局特征计算余弦相似度,并对所述余弦相似度进行归一化,生成表征图文配对置信度的软标签,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述软标签为每一训练样本分配样本权重,并结合随训练进程递增的动态权重因子,得到用于当前迭代的联
...【技术特征摘要】
1.一种基于软标签的噪声鲁棒文本到图像行人检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将训练集中的行人图像与对应文本描述分别输入图像编码器和文本编码器,得到图像全局特征与文本全局特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述图像全局特征与所述文本全局特征计算余弦相似度,并对所述余弦相似度进行归一化,生成表征图文配对置信度的软标签,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述软标签为每一训练样本分配样本权重,并结合随训练进程递增的动态权重因子,得到用于当前迭代的联合权重,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述联合权重分别构建跨模态对比学习损失与相似性分布匹配损失,并将所述跨模态对比学习损失与所述相似性分布匹配损失加权求和,得到总损失函数,包括:
6.根据权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。