一种基于导向视觉语义对齐的遥感图文检索方法技术

技术编号：39321836 阅读：11 留言：0更新日期：2023-11-12 16:02

一种基于导向视觉语义对齐的遥感图文检索方法，包括模态输入前的预处理、图文检索模型的搭建和损失函数的设计，其中图文检索模型搭建包括构建模态输入、模态交互和相似性度量三部分，所述模态交互的目标导向注意力模块包括模态内融合注意力模块和模态间引导注意力模块，其利用显著目标特征作为导向，自适应地调整最终视觉和文本嵌入在潜在语义空间中的距离。本发明专利技术解决遥感图文检索中普遍存在的视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种基于导向视觉语义对齐的遥感图文检索方法

[0001]本专利技术属于遥感领域，尤其涉及一种基于导向视觉语义对齐的遥感图文检索的方法。

技术介绍

[0002]随着航空航天技术和计算机技术的快速发展，遥感数据及其应用呈现爆炸增长，合理的利用遥感数据可以更好地帮助和改善人们的生活及生产方式。遥感图文检索指从海量的遥感数据(图像或文本)中获取更感兴趣且价值更大的数据(文本或图像)，其在资源调查、灾害检测、农业生产等领域发挥着重大作用。遥感数据中语义冗余和类间相似的特性使得遥感图文检索过程中出现严重的视觉
‑
语义不平衡。这些不平衡会导致非语义的视觉和文本特征的错误匹配，降低了图文检索的精度。
[0003]当前基于遥感的图像文本检索方法按照视觉表征方式主要分为：基于全局视觉特征方法和基于全局和局部视觉特征方法。这些方法较少关注到了这种视觉
‑
语义的不平衡性，而过度依赖单一的视觉信息，导致检索精度下降。

技术实现思路

[0004]为了克服现有技术精度较低的不足，本专利技术提出的一种基于导向视觉语义对齐的遥感图文检索方法，解决遥感图文检索中普遍存在的视觉
‑
语义不平衡问题，并且深入挖掘视觉和语言之间的关联关系。
[0005]为了实现上述的目的，本申请的技术方案如下：
[0006]一种基于导向视觉语义对齐的遥感图文检索方法，所述方法包括以下步骤：
[0007]步骤一、模态输入前的预处理，对遥感图像
‑
文本数据集的图...

【技术保护点】

【技术特征摘要】
1.一种基于导向视觉语义对齐的遥感图文检索方法，其特征在于，所述方法包括以下步骤：步骤一、模态输入前的预处理，对遥感图像
‑
文本数据集的图像和文本进行预处理，获得标准的模型输入样本数据；步骤二、图文检索模型的搭建，包括构建模态输入、模态交互和相似性度量三部分，实现对视觉和文本模态特征提取、模态间信息交互和计算视觉和文本模态的余弦相似度；步骤三、损失函数的设计，包括三元组排序损失函数和全局视觉语义损失函数，通过最小化损失函数实现图像和文本的对齐。2.如权利要求1所述一种基于导向视觉语义对齐的遥感图文检索方法，其特征在于，所述步骤二包括以下子步骤：步骤2.1：构建模态输入；所述的模态输入包括两个视觉编码器和一个文本编码器；其中视觉编码器包括多尺度视觉编码器和显著目标编码器；步骤2.2：构建模态交互；所述模态交互包括目标导向注意力模块；其包括模态内融合注意力模块和模态间引导注意力模块；模态内融合注意力模块对步骤2.1.2中映射后的多尺度视觉特征和显著目标特征进行融合，得到融合的视觉特征；模态间引导注意力模块利用步骤2.1.3中映射后的显著目标特征来引导词级文本特征的表达，得到视觉引导的文本特征；步骤2.3：构建相似性度量；将步骤2.1.2中映射后的多尺度视觉特征和词级文本特征、步骤2.2获得的融合的视觉特征和视觉引导的文本特征使用均值化处理转换成对应的嵌入，分别计算多尺度视觉嵌入和词级文本嵌入的余弦相似度、融合视觉嵌入和视觉引导文本嵌入的余弦相似度。3.如权利要求2所述一种基于导向视觉语义对齐的遥感图文检索方法，其特征在于，所述子步骤2.1的过程如下：步骤2.1.1：多尺度视觉编码器使用ResNet
‑
50作为网络骨架，在AID数据集上预训练，用于提取遥感图像中的多尺度视觉特征；在多尺度视觉编码器和后分别加入多层感知机对提取特征进行映射；步骤2.1.2：显著目标编码器使用ResNet
‑
50作为网络骨架，在DOTA数据集上预先训练，用于提取显著目标特征；在显著目标编码器后分别加入全连接层获取对提取特征进行映射；步骤2.1.3：其中文本编码器由Glove模型和双向GRU组成；Glove模型用于将句向量映射成一个300维度大小句向量；双向GRU获取这些句向量的上下文关系，得到初步的文本特征；在文本编码器后加入双流门控模块加强初步的文本特征深层的语义关联，得到词级文本特征。4.如权利要求1～3之一所述一种基于导向视觉语义对齐的遥感图文检索方法，其特征在于，所述步骤三包括以下子步骤：步骤3.1：三元组排序损失函数通过最小化融合视觉嵌入V
MR
和视觉引导的文本嵌入T
RG
在潜在语义空间中的距离实现最终图像和文本之间的对齐；步骤3.2：全局语义损失函数通过最小化多尺度视觉嵌入V
M
和词级文本嵌入T
G
，保证模态输入部分对图像和文本原始语义的不变性，作为融合视觉嵌入和视觉引导的文本嵌入的
外部约束；步骤3.3：组合三元排序损失函数...

【专利技术属性】
技术研发人员：白琮，潘建成，马青，陈胜勇，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人