System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于手绘草图的遥感图像快速检索方法技术_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于手绘草图的遥感图像快速检索方法技术

技术编号:40424445 阅读:11 留言:0更新日期:2024-02-20 22:44
本发明专利技术公开了一种基于手绘草图的遥感图像快速检索方法,该方法包括用于特征增强的tokenization模块、带有检索token的自注意力模块、跨模态注意力模块、带有检索token的三联体损失函数的定义及使用方法以及token的选择优化及检索五个部分。并对模型在不同的跨模态遥感图像检索数据集及大型遥感影像中进行了检索测试,检验了所提出模型对手绘草图在遥感图像中的快速检索性能,同时验证了模型的零次学习能力。本发明专利技术提供了一种使用手绘草图快速检索遥感图像的方法,实验结果表明所提出方法可以大幅度提高遥感图像检索的效率和准确性,且具备良好的零次学习能力,能够对在训练过程中未出现的类别实现有效检索。

【技术实现步骤摘要】

本专利技术涉及草图和遥感图像的跨模态图像检索领域,具体涉及一种基于手绘草图的遥感图像快速检索方法,用于在遥感影像中找到与给定草图类型相匹配的图像。


技术介绍

1、在遥感图像领域,快速而准确地检索与给定草图相匹配的图像对于许多应用至关重要。传统的图像检索方法通常依赖于低级视觉特征(如颜色、纹理等),但这些特征难以直接应用于手绘草图,因为草图的表示方式与真实图像存在较大差异。近年来,视觉transformer模型在计算机视觉领域取得了巨大成功。其中,注意力机制被广泛应用于处理图像和序列数据,并且通过自注意力机制能够建模长距离的依赖关系。因此,我们基于这些技术提出了一种基于手绘草图的遥感图像快速检索方法,以提高检索准确性和效率。


技术实现思路

1、为了解决上述
技术介绍
所指出的不足,本专利技术提供一种基于手绘草图的遥感图像快速检索方法,旨在解决现有技术中,基于手绘草图的遥感图像检索准确性不高和效率较低的技术问题。

2、该方法包括以下几个步骤:

3、步骤一、用于特征增强的tokenization模块;

4、步骤二、带有检索token的自注意力模块;

5、步骤三、跨模态注意力模块;

6、步骤四、带有检索token的三联体损失函数的定义及使用;

7、步骤五、token的选择优化及检索。

8、进一步的,步骤一中,包括通过将手绘草图和遥感图像转换为视觉token,之后经过特征增强的tokenization模块对笔画较为稀疏的草图进行处理,以便模型能够学习到更多的草图结构信息。具体来说是通过四层卷积核大小不同的卷积层堆叠产生tokenizer,每个卷积层后面都接上一个非线性激活函数(relu),这样做的目的就是通过分层卷积的方式扩大视觉token的感受野,从而能够保留草图更多的特征信息,通过引入残差连接改变原有的token,最终得到的token嵌入是:v=v+s';

9、进一步的,步骤二中,通过在自注意力模块中加入检索token,以获得更多的图片全局特征。具体来说检索token[rt]是一个可训练的d维token嵌入[rt]∈rd。在模型的推断阶段,所有的视觉token(包括检索token[rt])都通过多头自注意力模块(msa)进行交互,经过该模块之后再经过多层感知机模块(mlp),整体的模型的前向传播表达式为:

10、v0=[rt,v1,…,vn] (1)

11、vl=msa(ln(vl-1))+vl-1,l=1…l (2)

12、vl=mlp(ln(vl))+vl l=1…l (3)

13、其中公式(1)中的rt是检索token,v1,…,vn是经过处理之后的token嵌入,公式(2)和公式(3)都引入了残差连接,l是层数。草图和遥感图像的输入都将经过这个架构。msa模块有三种不同的投影头[wq,wk,wv],它们分别将相同的token嵌入映射到查询(queries)、键(keys)和值(value)中,q、k、v用公式表示为:

14、q=vi·wq,k=vi·wk,v=vi·wv (4)

15、缩放点积注意力由下式给出:

16、

17、进一步的,步骤三中,采用跨模态注意力模块建立草图和遥感图像之间的局部视觉对应关系,以捕捉它们之间的关联性;具体来说通过交换草图查询qs和遥感图查询qi产生新的查询张量、键张量和值张量,交换之后草图和遥感图的查询张量、键张量和值张量变成了(qi,ks,vs)和(qs,ki,vi),跨模态注意力通过下式获得:

18、

19、该式通过qs和相乘,再除以特征维度的平方根来计算内积注意力分数,表示查询与每个键之间的相关性,之后应用softmax函数对得到的注意力分数进行归一化操作,使得它们的总和等于1,得到注意力权重,最后将归一化的注意力权重与值张量vi进行点乘计算,得到跨模态注意力输出。

20、进一步的,步骤四中,定义并使用了一个带有检索token[rt]的三联体损失函数来对该方法所提出的网络进行训练。具体定义为给定一个三联体(si,ii+,ii-),其中si是一张目标草图,ii+是和si具有相同标签的遥感图像,ii-是和si具有不同标签的遥感图像,该损失函数的目标是要最小化三联体损失去对齐正确匹配的草图-遥感图像对,并且使目标草图远离错误的草图-遥感图像对。在此基础之上,我们将检索token[rt]作为草图和遥感图像的全局特征,三联体损失的定义如下式所示:

21、

22、进一步的,步骤五中,对于经过之前步骤生成的局部视觉token并不都是有用的,它们中的一些可能代表着背景或没有意义的区域,这些视觉token对于我们的检索任务并不重要。通过对这些视觉token的选择和优化不仅能够减少token的数量,也能够在一定程度上降低计算的复杂性。我们通过使用检索token[rt]和所有的视觉token之间的注意力分数来实现token的选择优化;注意力分数通过下式计算获得:

23、

24、该式通过q[rt]和kt相乘,再除以特征维度的平方根来计算内积注意力分数,之后应用softmax函数对得到的注意力分数进行归一化操作,得到检索token[rt]和所有的视觉token之间的注意力分数。

25、根据注意力分数s,只有前k个视觉token会被保留,其他的token都会被舍弃,这样就实现了token的选择。在进行检索时将使用草图的检索token去选择具有一定保持率rca的遥感图像的视觉token,注意力分数靠前的遥感图像将会被返回,完成对遥感图像的快速检索。

26、本专利技术公开了一种基于手绘草图的遥感图像快速检索方法,研究针对遥感图像跨模态检索的挑战性任务,通过引入视觉transformer模型、并针对草图笔画稀疏的特点,提出了特征增强的tokenization方法以学习草图更多的结构信息;同时使用了带有检索token的自注意力模块和为针对检索任务的跨模态注意力模块;还基于检索token与所有的视觉token之间的注意力分数对生成的token进行了选择和优化,并根据注意力分数使用草图对遥感图像进行了快速的检索。本专利技术在大型的草图-遥感图像数据集及大规模的遥感影像的实际检索中取得了良好的效果,同时对于在训练过程中未见过的全新类别(零次学习能力)依然能够实现有效的检索,模型的精度高,特别是对于图像的形状检索有较好的效果,具有一定的实际应用价值。整体检索过程快速准确,为基于手绘草图的遥感图像快速检索研究提供了新的方法和思路。

本文档来自技高网...

【技术保护点】

1.一种基于手绘草图的遥感图像快速检索方法,其特征在于,包括以下几个步骤:

2.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤一中,包括通过将手绘草图和遥感图像转换为视觉token;之后经过特征增强的tokenization模块对笔画较为稀疏的草图进行处理,以便模型能够学习到更多的草图结构信息,具体来说是通过四层卷积核大小不同的卷积层堆叠产生tokenizer,每个卷积层后面都接上一个非线性激活函数(ReLU),这样做的目的就是通过分层卷积的方式扩大视觉token的感受野,从而能够保留草图更多的特征信息,通过引入残差连接改变原有的token,最终得到的token嵌入是:V=V+S′。

3.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤二中,通过在自注意力模块中加入检索token,以获得更多的图片全局特征,具体来说检索token[RT]是一个可训练的d维token嵌入[RT]∈Rd,在模型的推断阶段,所有的视觉token(包括检索token[RT])都通过多头自注意力模块(MSA)进行交互,经过该模块之后再经过多层感知机模块(MLP),整体的模型的前向传播表达式为:

4.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤三中,采用跨模态注意力模块建立草图和遥感图像之间的局部视觉对应关系,以捕捉它们之间的关联性;具体来说通过交换草图查询QS和遥感图查询QI产生新的查询张量、键张量和值张量,交换之后草图和遥感图的查询张量、键张量和值张量变成了(QI,KS,VS)和(QS,KI,VI),跨模态注意力通过下式获得:

5.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤四中,定义并使用了一个带有检索token[RT]的三联体损失函数来对该方法所提出的网络进行训练,具体定义为给定一个三联体(Si,Ii+,Ii-),其中Si是一张目标草图,Ii+是和Si具有相同标签的遥感图像,Ii-是和Si具有不同标签的遥感图像,该损失函数的目标是要最小化三联体损失去对齐正确匹配的草图-遥感图像对,并且使目标草图远离错误的草图-遥感图像对,在此基础之上,我们将检索token[RT]作为草图和遥感图像的全局特征,三联体损失的定义如下式所示:

6.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤五中,对于经过之前步骤生成的局部视觉token并不都是有用的,它们中的一些可能代表着背景或没有意义的区域,这些视觉token对于我们的检索任务并不重要,通过对这些视觉token的选择和优化不仅能够减少token的数量,也能够在一定程度上降低计算的复杂性,我们通过使用检索token[RT]和所有的视觉token之间的注意力分数来实现token的选择优化;注意力分数通过下式计算获得

...

【技术特征摘要】

1.一种基于手绘草图的遥感图像快速检索方法,其特征在于,包括以下几个步骤:

2.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤一中,包括通过将手绘草图和遥感图像转换为视觉token;之后经过特征增强的tokenization模块对笔画较为稀疏的草图进行处理,以便模型能够学习到更多的草图结构信息,具体来说是通过四层卷积核大小不同的卷积层堆叠产生tokenizer,每个卷积层后面都接上一个非线性激活函数(relu),这样做的目的就是通过分层卷积的方式扩大视觉token的感受野,从而能够保留草图更多的特征信息,通过引入残差连接改变原有的token,最终得到的token嵌入是:v=v+s′。

3.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤二中,通过在自注意力模块中加入检索token,以获得更多的图片全局特征,具体来说检索token[rt]是一个可训练的d维token嵌入[rt]∈rd,在模型的推断阶段,所有的视觉token(包括检索token[rt])都通过多头自注意力模块(msa)进行交互,经过该模块之后再经过多层感知机模块(mlp),整体的模型的前向传播表达式为:

4.根据权利要求1所述的一种基于手绘草图的遥感图像快速检索方法,其特征在于,步骤三中,采用跨模态注意力模块建立草图和遥感图像之间的局部视觉对应关系,以捕捉它们之间...

【专利技术属性】
技术研发人员:章敏杨博王晨刘通王文磊
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1