【技术实现步骤摘要】
基于文本的行人搜索任务语义对齐方法及系统
[0001]本专利技术涉及计算机视觉
,尤其是指一种基于文本的行人搜索任务语义对齐方法及系统。
技术介绍
[0002]基于文本的行人搜索旨在通过文本描述来检索特定行人(如失踪的儿童老人)的图像。其可以作为只有文本描述却没有目标人物的图像情况下的视频监控工具。但由于文本描述是十分复杂的,这就产生了两个主要问题:1)同一幅图像的文本描述可能差异很大;2)身体部位的描述是可以按照任意顺序进行的,因而视觉特征和文本特征之间存在语义错位。因此,基于文本的行人搜索这一任务的关键挑战是消除模式间的差距,并实现模式间的特征对齐。
[0003]目前提出的各种基于文本的人物搜索方法通常分为全局匹配方法和局部匹配方法。全局匹配方法通过将图像和文本共同嵌入到共享空间中,粗略地学习全局表示。局部匹配方法通过跨模态注意机制对局部单元进行对齐,通过简单的划分操作或额外的模型获得局部单元。与全局匹配方法相比,局部匹配方法通过细粒度的信息挖掘和模式间的信息交互显著提高了性能。然而,局部匹配方法中的信息交 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本的行人搜索任务语义对齐方法,其特征在于,包括以下步骤:给定图像和文本,对图像和文本进行特征提取,分别得到图像特征和文本特征,其中图像和文本的特征包括局部特征和全局特征;构建特征聚合网络,特征聚合网络包括多头注意力模型,将图像特征和文本特征输入至特征聚合网络,输出语义对齐的图像感知特征和文本感知特征,其中图像局部特征和文本局部特征通过受跨模态局部对齐损失和三元组损失约束的多头注意力模型实现局部特征对齐;基于图像感知特征和文本感知特征计算图像和文本的原始相似度;在推理过程中,给定一个文本查询,根据原始相似度对图像进行排序,获得初始排序列表,对于初始排序列表中的每个图像根据其视觉表示的相似性得到图像的最近邻,且根据文本与图像的原始相似度得到文本查询的最近邻,根据两个最近邻计算文本查询与每个图像之间的成对相似度,并根据原始相似度和成对相似度对图像进行重新排序。2.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法,其特征在于,对所述图像进行特征提取得到图像特征的方法包括:给定多个图像,将每个图像分割为设定大小的切片序列,通过可训练的线性投影将切片序列映射到d维嵌入,在切片嵌入序列中增加可学习的嵌入标记并将其输入至图像特征编码器,输出每个图像特征,其中图像特征包括图像全局特征和图像局部特征。3.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法,其特征在于,对所述文本进行特征提取得到文本特征的方法包括:给定多个文本描述,将每个文本描述输入至文本特征编码器,输出每个文本特征,其中文本特征包括文本全局特征和文本局部特征。4.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法,其特征在于,所述图像局部特征和文本局部特征通过多头注意力模型进行局部特征对齐的方法包括:将多个图像特征和多个文本特征分别输入至结构相同的两个所述多头注意力模型中,在多头注意力模型中分别得到图像块嵌入集和文本嵌入集,然后将多个图像的图像块嵌入集中对应的嵌入特征组合得到多个图像块嵌入矩阵,同时将多个文本的文本嵌入集中对应的嵌入特征组合得到多个文本嵌入矩阵;使用受跨模态局部对齐损失和三元组损失训练多头注意力模型,得到训练后的多头注意力模型,利用训练后的多头注意力模型输出语义对齐的图像感知特征和文本感知特征。5.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法,其特征在于,所述特征聚合网络受跨模态全局对齐损失、跨模态局部对齐损失和三元组损失约束对图像全局特征和文本全局特征进行语义对齐。6.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法,其特征在于,计算图像和文本的原始相似度的方法包括:计算图像
‑
文本对之间的原始相似度的计算公式如下:其中,I和T代表输入的图像和文本,k为多头注意力模型中...
【专利技术属性】
技术研发人员:王丹,张韫竹,张翔,李石平,曹敏,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。