System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机视觉领域和自然语言处理领域,具体涉及一种基于目标查询引导的端到端视觉定位方法及系统。
技术介绍
1、视觉定位(visual grounding)是一个基础研究问题,其目的是在图像中定位语言表达所指代的物体。虽然现在的目标检测(object detection)框架已经取得了很高的准确率,但是它们只能根据预先定义的物体类别来进行检测。在实际的应用场景中,人们往往更倾向于使用自然语言来描述需要检测的物体。与目标检测相比,视觉定位可以根据语言表达来查询图像中的某一个区域,这实现了视觉信息和文本信息之间的交互。近来,由于视觉定位在视觉语言导航(vision-and-language navigation)方面的巨大潜力而备受关注。
2、现有的解决visual grounding的方法可以分为两种:两阶段的方法和一阶段的方法。两阶段的方法先是利用预训练好的目标检测器来生成一些候选区域,然后把和语言表达最为匹配的候选区域作为最终的预测结果。很显然,这种方法的效果会受到目标检测器性能的限制,如果目标物体没有在第一个阶段被检测出来,那么在第二个阶段中就无法对它进行定位,导致整个视觉定位任务的失败。一阶段的方法则摆脱了对预训练好的目标检测器的依赖,直接融合图像特征和文本特征,然后预测目标物体的位置,实现了端到端的目标定位。其中,一些方法在视觉信息和文本信息融合后利用检测器生成许多候选的边界框,然后从中选择置信度最高的一个作为预测结果,但是这样会产生和两阶段的方法相似的问题,最终预测结果会受到候选边界框质量的影响。因
技术实现思路
1、为了解决图像中的非目标物体对视觉定位造成干扰的问题,本专利技术的目的是提供一种基于目标查询引导的端到端视觉定位方法及系统,提出了目标查询引导的多阶段跨模态解码器,在解码器的每一个阶段都会利用目标查询来让视觉特征和文本特征中与目标物体相关的部分在解码器的下一个阶段中获得更多的关注;并且,目标查询的初始值会通过图像特征和文本特征来生成,使得目标查询在一开始就可以包含许多与目标物体相关的信息,以助于实现更好的视觉定位效果。
2、实现本专利技术目的的具体技术方案是:
3、一种基于目标查询引导的端到端视觉定位方法,包括以下步骤:
4、步骤s1,获取图像及其对应的语言表达;
5、步骤s2,分别使用预训练好的图像编码器和文本编码器对图像和对应的语言表达提取视觉特征和文本特征;
6、步骤s3,使用跨模态编码器增强视觉特征和文本特征;
7、步骤s4,利用视觉特征和文本特征生成目标查询的初始值、视觉判别特征的初始值和文本判别特征的初始值,具体为:
8、步骤s401,利用视觉特征和文本特征来生成目标查询(代表目标物体的表征)的初始值;
9、步骤s402,利用视觉特征和文本特征来生成视觉判别特征的初始值,视觉判别特征表示视觉特征中与目标查询相关度更高的部分会获得更大的权重,并且会在解码器中利用目标查询进行更新;
10、步骤s403,把文本特征作为文本判别特征的初始值,文本判别特征表示文本特征中与目标查询相关度更高的部分会获得更大的权重,并且会在解码器中利用目标查询进行更新;
11、步骤s5,使用多阶段解码器,让视觉信息和文本信息迭代地融入到目标查询中,并且在解码器的每一个阶段利用目标查询更新视觉判别特征和文本判别特征,具体为:
12、步骤s501,在多阶段解码器中,将视觉信息和文本信息迭代地融入到目标查询中,其中视觉信息包含视觉特征和视觉判别特征,文本信息包含文本特征和文本判别特征,这些信息会在多阶段解码器中迭代地融入到目标查询中;
13、步骤s502,在解码器的每一个阶段中,利用步骤s501输出的目标查询来更新视觉判别特征和文本判别特征;
14、步骤s6,在训练期间,解码器每一个阶段输出的目标查询都利用前馈神经网络来预测目标物体的位置,并使用目标物体的真实位置进行监督学习,得到训练好的预测模型;
15、步骤s7,使用训练好的预测模型来预测目标物体的位置(解码器最后一个阶段的输出为最终的预测结果)。
16、进一步,步骤s3所述的跨模态编码器,由注意力部分和前馈神经网络部分组成,其中注意力部分的处理过程如下:f′v=msa(qva_v,qva_l,vva_l)
17、f′l=msa(qva_l,qva_v,vva_v)
18、其中msa表示多头自注意力(multi-head self-attention);qva_v和vva_v是由视觉特征经过线性映射产生的,qva_l和vva_l是由文本特征经过线性映射产生的,qva_l、qva_v和vva_v分别代表多头自注意力中的query(查询)、key(键)和value(值);得到经过注意力部分后的视觉特征f′v和文本特征f′l,然后分别将这两个特征输入到前馈神经网络(由两个具有gelu激活的线性映射层组成)中,最终得到被增强的视觉特征fv和文本特征fl。
19、进一步,步骤s401所述生成目标查询的初始值,其过程如下:
20、首先计算文本特征fl与视觉特征fv中各个token的相关度,生成注意力图attn:
21、attn=softmax(linear(fv)linear(avg(fl))t)
22、其中avg表示在token维度上的平均池化操作,linear表示线性映射,softmax表示softmax激活函数;再根据attn和视觉特征fv得到目标查询的初始值(也就是被输入到解码器第一个阶段中的目标查询):
23、
24、其中sum表示在token维度上求和,α是一个超参数;在生成时,fv中与fl相关度越高的token会获得越高的权重。
25、进一步,所述步骤s501,具体过程如下(以解码器的第i个阶段为例),首先将文本信息融入到目标查询中,得到文本表征tl:
26、tl=msa(qt,kl′,vl)
27、其中qt、kl′和vl分别是由目标查询文本判别特征和文本特征fl经过线性映射产生的,qt、kl′和vl分别代表多头自注意力中的query、key和value;这之后,再融入视觉信本文档来自技高网...
【技术保护点】
1.一种基于目标查询引导的端到端视觉定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤S3所述的跨模态编码器,由注意力部分和前馈神经网络部分组成,其中注意力部分的处理过程如下:
3.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤S401所述生成目标查询的初始值,其过程如下:
4.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,所述步骤S501,具体过程如下:
5.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤S502所述利用步骤S501输出的目标查询来更新视觉判别特征和文本判别特征,具体过程如下:
6.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤S6所述使用目标物体的真实位置进行监督学习,其损失函数如下:
7.一种基于权利要求1所述方法的目标查询引导的端到端视觉定位系统,其特征在于,该系统包括:
【技术特征摘要】
1.一种基于目标查询引导的端到端视觉定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤s3所述的跨模态编码器,由注意力部分和前馈神经网络部分组成,其中注意力部分的处理过程如下:
3.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在于,步骤s401所述生成目标查询的初始值,其过程如下:
4.根据权利要求1所述的基于目标查询引导的端到端视觉定位方法,其特征在...
【专利技术属性】
技术研发人员:褚真真,陈岑,钱卫宁,陈佳禹,汪诚愚,黄俊,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。