System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多尺度信息动态融合的遥感跨模态图文检索方法技术_技高网

一种多尺度信息动态融合的遥感跨模态图文检索方法技术

技术编号:43333125 阅读:17 留言:0更新日期:2024-11-15 20:30
本发明专利技术公开了一种多尺度信息动态融合的遥感跨模态图文检索方法,包括:获取遥感图像文本数据集,对数据集进行数据增强处理;构建多尺度信息动态融合的遥感跨模态图文检索模型,所述遥感跨模态图文检索模型包括多尺度特征优化的图像编码器、多尺度信息动态融合模块、文本编码器、跨模态信息交互模块和损失函数模块;使用处理后的遥感图文数据集对遥感跨模态图文检索模型进行训练,得到最终遥感跨模态图文检索模型;将待检索数据输入至最终遥感跨模态图文检索模型中,获得与待检索数据相关的图像数据或与待检索数据相关的文本数据;本发明专利技术综合考虑遥感图像不同深度级别特征,提高检索精度。

【技术实现步骤摘要】

本专利技术涉及遥感跨模态图文检索,更具体的,涉及一种多尺度信息动态融合的遥感跨模态图文检索方法


技术介绍

1、近年来,遥感成像技术在灾害监测、资源探测和军事侦察等军民领域受到前所未有的广泛应用关注。对遥感图像的直接语义解析及对给定语义内容的遥感图像获取,逐渐成为遥感图像处理与应用中的重要需求内容。因此,针对遥感信息的跨模态图文检索方法可以给出遥感观测场景内容相匹配一致的图/文表达信息,近几年引起越来越多的聚焦研究。与此同时,鉴于深度学习技术的广泛应用和飞速发展,深度学习具有从多模态数据学习跨模态数据的共性特征表示的能力,从而成为当前最为流行的遥感跨模态图文检索方法。

2、在深度学习领域,现有的遥感跨模态图文检索方法存在诸多问题。如大多网络使用卷积运算,有限的关注视野仅关注到遥感图像的局部特征,往往难以聚焦于远距离的目标信息,从而忽略了遥感图像的全局特征。实际上,全局特征可以让模型能够更好地理解整体遥感图像,而局部特征可以使模型对细粒度对象和对应关系有较好的感知。与此同时,遥感图像可能存在目标尺度变化大的问题,不同尺度信息细节可能被携带在网络不同深度级别特征上。而现有检索方法主要重点利用了遥感图像的高级语义特征,而忽略对包含丰富的细节信息的低级语义特征的充分利用。此外,现有图文检索方法也缺少图像和文本两种不同模态数据之间的信息交互,影响遥感跨模态图文检索的精度。另外,现有方法较少考虑到遥感场景具有很强的类内相似性,一旦一个文本可能对应多个与正样本非常相似的负样本图像,遥感跨模态图文检索的精度将受到影响。

/>

技术实现思路

1、本专利技术为了解决现有遥感跨模态图文检索方法没有综合考虑遥感图像不同深度级别特征,检索精度低的问题,提出了一种多尺度信息动态融合的遥感跨模态图文检索方法,综合考虑遥感图像不同深度级别特征,提高检索精度。

2、本专利技术的技术方案如下:

3、本专利技术公开了一种多尺度信息动态融合的遥感跨模态图文检索方法,包括:

4、获取遥感图像文本数据集,对数据集进行一系列数据增强处理;

5、构建多尺度信息动态融合的遥感跨模态图文检索模型,所述遥感跨模态图文检索模型包括多尺度特征优化的图像编码器、多尺度信息动态融合模块、文本编码器、跨模态信息交互模块和损失函数模块;

6、使用处理后的遥感图文数据集对遥感跨模态图文检索模型进行训练,得到最终遥感跨模态图文检索模型;

7、将待检索数据输入至最终遥感跨模态图文检索模型中,获得与待检索数据相关的图像数据或与待检索数据相关的文本数据。

8、优选地,所述数据增强处理包括旋转图像、随机裁剪图像。

9、优选地,所述多尺度特征优化的图像编码器接收将预处理后的图像数据,包括依次连接的一个局部信息感知层、四个基于cnn和transformer的多尺度特征优化层、一个平均池化层、一个1×1卷积块和一个全连接层;其中,前两个基于cnn和transformer的多尺度特征优化层得到的特征作为图像的低层次语义特征,后两个基于cnn和transformer的多尺度特征优化层得到的特征作为图像的高层次语义特征。

10、优选地,所述局部信息感知层包括三个依次连接的3×3卷积块;

11、所述四个基于cnn和transformer的多尺度特征优化层分别包括2×2卷积块、cnn和transformer混合块和多尺度特征优化模块;

12、所述cnn和transformer混合块包括1×1的卷积块、3×3的深度卷积块和轻量级多头自注意力;

13、所述多尺度特征优化模块包括向下投影的线性层、向上投影的线性层、多认知卷积滤波器和1×1的卷积块;

14、所述多认知卷积滤波器包括3×3的深度卷积块、5×5的深度卷积块、7×7的深度卷积块。

15、优选地,所述多尺度信息动态融合模块将多尺度特征优化的图像编码器输出的低层次语义特征和高层次语义特征进行动态融合;

16、动态融合的方法如下:

17、对低层次语义特征和高层次语义特征进行重新表征,使用自注意力模块和引导注意力模块优化生成的多层信息;

18、自注意力模块通过对输入特征x进行内部相似性计算来发现信息之间的相关性;

19、引导注意力模块通过计算特征x和y之间的相似性,输出由特征y引导的特征z;

20、低层次语义特征、高层次语义特征通过自注意力模块后,使用引导注意力模块使它们相互作用:

21、

22、

23、式中,sa(x)表示使用自注意模块处理特征x,ga(x,y)表示使用特征y指导特征x的表示;和表示由sa模块处理后得到的高层次语义特征和低层次语义特征,和表示特征交互后的高层次语义特征和低层次语义特征;

24、为使高层次语义特征和低层次语义特征进一步融合,定义以下操作:

25、

26、式中,表示点积;vh和vl是信息交互后的高层次语义特征和低层次语义特征;

27、根据不同层次的信息生成动态权值,将这两个特征叠加,得到混合的视觉信息vmin;对vmin进行线性变换,得到可学习的动态权值γ,生成融合特征v,将v作为用于跨模态信息交互的图像特征;

28、

29、γ1,γ2=softmax(σ(vminwα)wβ)

30、

31、式中,wα和wβ为权重矩阵,softmax(x)表示使用softmax函数激活特征x。

32、优选地,使用bi-gru双向循环神经网络作为文本编码器,将预处理后的文本数据输入双向循环神经网络,得到文本特征。

33、优选地,跨模态信息交互模块通过权重共享机制实现跨模态信息交互,实现图像特征和文本特征进行对齐;

34、所述跨模态信息交互模块包括图像特征投影支路、文本特征投影支路和权重共享的向上投影层,每条支路分别包括依次连接的向下投影层、非线性层和向上投影层;所述权重共享的向上投影层将图像特征和文本特征的信息相互作用,进而增强图像和文本模态的表达能力。

35、优选地,所述损失函数模块采用具有动态边距的三元组损失函数对模型进行优化,完成多尺度信息动态融合的遥感跨模态图文检索模型构建;

36、根据样本对的先验相似度,改变三元组损失中的固定边距:

37、对于样本对(t,i),定义s(t,ti)∈(0,1)为文本t与图像i对应的五个句子之间的相似度;

38、

39、式中,e为自然指数,γ为最大边距,β为衰减系数,αct为考虑文本相似度的边距;

40、

41、式中,αct表示考虑文本相似度的边距,[x]+≡max(x,0),s(i,t)表示图像和文本的相似度;第一次求和考虑给定图像i的所有负样本t,第二次求和考虑给定句子t的所有负样本i。

42、优选地,使用预处理后的遥感图文数据本文档来自技高网...

【技术保护点】

1.一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,包括:

2.根据权利要求1所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述数据增强处理包括旋转图像、随机裁剪图像。

3.根据权利要求1所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述多尺度特征优化的图像编码器接收将预处理后的图像数据,包括依次连接的一个局部信息感知层、四个基于CNN和Transformer的多尺度特征优化层、一个平均池化层、一个1×1卷积块和一个全连接层;其中,前两个基于CNN和Transformer的多尺度特征优化层得到的特征作为图像的低层次语义特征,后两个基于CNN和Transformer的多尺度特征优化层得到的特征作为图像的高层次语义特征。

4.根据权利要求3所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述局部信息感知层包括三个依次连接的3×3卷积块;

5.根据权利要求3或4所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述多尺度信息动态融合模块将多尺度特征优化的图像编码器输出的低层次语义特征和高层次语义特征进行动态融合;

6.根据权利要求5所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,使用Bi-GRU双向循环神经网络作为文本编码器,将预处理后的文本数据输入双向循环神经网络,得到文本特征。

7.根据权利要求6所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,跨模态信息交互模块通过权重共享机制实现跨模态信息交互,实现图像特征和文本特征进行对齐;

8.根据权利要求1所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述损失函数模块采用具有动态边距的三元组损失函数对模型进行优化,完成多尺度信息动态融合的遥感跨模态图文检索模型构建;

9.根据权利要求1所述的一种多层次信息动态融合的遥感跨模态图文检索方法,其特征在于,使用预处理后的遥感图文数据集对遥感跨模态图文检索模型进行训练,包括:

10.根据权利要求1所述的一种多层次信息动态融合的遥感跨模态图文检索方法,其特征在于,将待检索数据输入至最终遥感跨模态图文检索模型中,获得与待检索数据相关的图像数据或与待检索数据相关的文本数据,包括:利用过相似性函数计算待检索数据与图像数据或文本数据之间的相似度,对获得的结果依照距离从小到大排列,得到检索结果。

...

【技术特征摘要】

1.一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,包括:

2.根据权利要求1所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述数据增强处理包括旋转图像、随机裁剪图像。

3.根据权利要求1所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述多尺度特征优化的图像编码器接收将预处理后的图像数据,包括依次连接的一个局部信息感知层、四个基于cnn和transformer的多尺度特征优化层、一个平均池化层、一个1×1卷积块和一个全连接层;其中,前两个基于cnn和transformer的多尺度特征优化层得到的特征作为图像的低层次语义特征,后两个基于cnn和transformer的多尺度特征优化层得到的特征作为图像的高层次语义特征。

4.根据权利要求3所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述局部信息感知层包括三个依次连接的3×3卷积块;

5.根据权利要求3或4所述的一种多尺度信息动态融合的遥感跨模态图文检索方法,其特征在于,所述多尺度信息动态融合模块将多尺度特征优化的图像编码器输出的低层次语义特征和高层次语义特征进行动态融合;

6.根...

【专利技术属性】
技术研发人员:戴震赵艮平程良伦
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1