一种基于导向视觉语义对齐的遥感图文检索方法技术

技术编号:39321836 阅读:11 留言:0更新日期:2023-11-12 16:02
一种基于导向视觉语义对齐的遥感图文检索方法,包括模态输入前的预处理、图文检索模型的搭建和损失函数的设计,其中图文检索模型搭建包括构建模态输入、模态交互和相似性度量三部分,所述模态交互的目标导向注意力模块包括模态内融合注意力模块和模态间引导注意力模块,其利用显著目标特征作为导向,自适应地调整最终视觉和文本嵌入在潜在语义空间中的距离。本发明专利技术解决遥感图文检索中普遍存在的视觉

【技术实现步骤摘要】
一种基于导向视觉语义对齐的遥感图文检索方法


[0001]本专利技术属于遥感领域,尤其涉及一种基于导向视觉语义对齐的遥感图文检索的方法。

技术介绍

[0002]随着航空航天技术和计算机技术的快速发展,遥感数据及其应用呈现爆炸增长,合理的利用遥感数据可以更好地帮助和改善人们的生活及生产方式。遥感图文检索指从海量的遥感数据(图像或文本)中获取更感兴趣且价值更大的数据(文本或图像),其在资源调查、灾害检测、农业生产等领域发挥着重大作用。遥感数据中语义冗余和类间相似的特性使得遥感图文检索过程中出现严重的视觉

语义不平衡。这些不平衡会导致非语义的视觉和文本特征的错误匹配,降低了图文检索的精度。
[0003]当前基于遥感的图像文本检索方法按照视觉表征方式主要分为:基于全局视觉特征方法和基于全局和局部视觉特征方法。这些方法较少关注到了这种视觉

语义的不平衡性,而过度依赖单一的视觉信息,导致检索精度下降。

技术实现思路

[0004]为了克服现有技术精度较低的不足,本专利技术提出的一种基于导向视觉语义对齐的遥感图文检索方法,解决遥感图文检索中普遍存在的视觉

语义不平衡问题,并且深入挖掘视觉和语言之间的关联关系。
[0005]为了实现上述的目的,本申请的技术方案如下:
[0006]一种基于导向视觉语义对齐的遥感图文检索方法,所述方法包括以下步骤:
[0007]步骤一、模态输入前的预处理,对遥感图像

文本数据集的图像和文本进行预处理,获得标准的模型输入样本数据;
[0008]步骤二、图文检索模型的搭建,包括构建模态输入、模态交互和相似性度量三部分,实现对视觉和文本模态特征提取、模态间信息交互和计算视觉和文本模态的余弦相似度;
[0009]步骤三、损失函数的设计,包括三元组排序损失函数和全局视觉语义损失函数,通过最小化损失函数实现图像和文本的对齐。
[0010]进一步,
[0011]所述步骤二包括以下子步骤:
[0012]步骤2.1:构建模态输入;所述的模态输入包括两个视觉编码器和一个文本编码器;其中视觉编码器包括多尺度视觉编码器和显著目标编码器;
[0013]步骤2.2:构建模态交互;所述模态交互包括目标导向注意力模块;其包括模态内融合注意力模块和模态间引导注意力模块;模态内融合注意力模块对步骤2.1.2中映射后的多尺度视觉特征和显著目标特征进行融合,得到融合的视觉特征;模态间引导注意力模块利用步骤2.1.3中映射后的显著目标特征来引导词级文本特征的表达,得到视觉引导的
文本特征;
[0014]步骤2.3:构建相似性度量;将步骤2.1.2中映射后的多尺度视觉特征和词级文本特征、步骤2.2获得的融合的视觉特征和视觉引导的文本特征使用均值化处理转换成对应的嵌入,分别计算多尺度视觉嵌入和词级文本嵌入的余弦相似度、融合视觉嵌入和视觉引导文本嵌入的余弦相似度。
[0015]优选的,所述子步骤的过程如下:
[0016]步骤2.1.1:多尺度视觉编码器使用ResNet

50作为网络骨架,在AID数据集上预训练,用于提取遥感图像中的多尺度视觉特征;在多尺度视觉编码器和后分别加入多层感知机对提取特征进行映射;
[0017]步骤2.1.2:显著目标编码器使用ResNet

50作为网络骨架,在DOTA数据集上预先训练,用于提取显著目标特征;在显著目标编码器后分别加入全连接层获取对提取特征进行映射;
[0018]步骤2.1.3:其中文本编码器由Glove模型和双向GRU组成;Glove模型用于将步骤1.2得到的句向量映射成一个300维度大小句向量;双向GRU获取这些句向量的上下文关系,得到初步的文本特征;在文本编码器后加入双流门控模块加强初步的文本特征深层的语义关联,得到词级文本特征。
[0019]再进一步,所述步骤三包括以下子步骤:
[0020]步骤3.1:三元组排序损失函数通过最小化融合视觉嵌入和视觉引导的文本嵌入在潜在语义空间中的距离实现最终图像和文本之间的对齐;
[0021]步骤3.2:全局语义损失函数通过最小化多尺度视觉嵌入和词级文本嵌入,保证模态输入部分对图像和文本原始语义的不变性,作为融合视觉嵌入和视觉引导的文本嵌入的外部约束。
[0022]步骤3.3:组合三元排序损失函数和全局语义损失函数作为模型训练的总体损失函数。
[0023]所述子步骤2.2的过程如下:
[0024]目标导向注意力模块包括模态内融合注意力模块和模态间引导注意力模块;模态内融合注意力模块对步骤2.1.2中映射后的多尺度视觉特征F
M
和显著目标特征F
R
进行融合,首先对F
M
和F
R
经过一层全连接层得到F

M
和F

R
,然后通过矩阵乘法计算两个特征的联合得分,然后分别激活两个特征,公式表示为:
[0025][0026][0027][0028]其中S
MR
表示多尺度视觉特征和显著目标特征的联合得分,和表示聚合特征,最后得到融合的视觉特征F
MR
,公式表示为:
[0029][0030]其中W
L
和b
L
表示线性变换的权重和偏置,∪表示按通道进行拼接;
[0031]模态间引导注意力模块利用步骤2.1.2中映射后的显著目标特征F
R
来引导步骤2.1.3中映射后的词级文本特征FG的表达,首先对和
进行预处理,分别计算均值,公式表示为:
[0032][0033][0034]然后对E
R
和E
G
经过一层全连接层得到F

R
和F

G
,然后计算两个特征的联合得分,然后激活文本特征,公式表示为:
[0035][0036][0037]其中S
RG
表示显著目标特征和词级文本特征的联合得分,表示聚合特征,最后得到视觉引导的文本特征F
RG
,公式表示为:
[0038][0039]其中MLP表示多层感知机。
[0040]所述子步骤3.3中,总体损失函数表示为:
[0041][0042][0043]其中α表示边缘参数,[x]+
≡max(x,0),和表示遥感图像和文本中最小批次的样本V和T中的最负的样本,S(
·

·
)表示步骤2.3计算余弦相似度,表示三元组排序损失函数,表示全局语义损失函数,λ
g
表示全局视觉语义损失函数的权重因子。
[0044]所述步骤一包括以下子步骤:
[0045]步骤1.1:遥感图像的预处理;将图像数据分成训练集、验证集和测试集;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于导向视觉语义对齐的遥感图文检索方法,其特征在于,所述方法包括以下步骤:步骤一、模态输入前的预处理,对遥感图像

文本数据集的图像和文本进行预处理,获得标准的模型输入样本数据;步骤二、图文检索模型的搭建,包括构建模态输入、模态交互和相似性度量三部分,实现对视觉和文本模态特征提取、模态间信息交互和计算视觉和文本模态的余弦相似度;步骤三、损失函数的设计,包括三元组排序损失函数和全局视觉语义损失函数,通过最小化损失函数实现图像和文本的对齐。2.如权利要求1所述一种基于导向视觉语义对齐的遥感图文检索方法,其特征在于,所述步骤二包括以下子步骤:步骤2.1:构建模态输入;所述的模态输入包括两个视觉编码器和一个文本编码器;其中视觉编码器包括多尺度视觉编码器和显著目标编码器;步骤2.2:构建模态交互;所述模态交互包括目标导向注意力模块;其包括模态内融合注意力模块和模态间引导注意力模块;模态内融合注意力模块对步骤2.1.2中映射后的多尺度视觉特征和显著目标特征进行融合,得到融合的视觉特征;模态间引导注意力模块利用步骤2.1.3中映射后的显著目标特征来引导词级文本特征的表达,得到视觉引导的文本特征;步骤2.3:构建相似性度量;将步骤2.1.2中映射后的多尺度视觉特征和词级文本特征、步骤2.2获得的融合的视觉特征和视觉引导的文本特征使用均值化处理转换成对应的嵌入,分别计算多尺度视觉嵌入和词级文本嵌入的余弦相似度、融合视觉嵌入和视觉引导文本嵌入的余弦相似度。3.如权利要求2所述一种基于导向视觉语义对齐的遥感图文检索方法,其特征在于,所述子步骤2.1的过程如下:步骤2.1.1:多尺度视觉编码器使用ResNet

50作为网络骨架,在AID数据集上预训练,用于提取遥感图像中的多尺度视觉特征;在多尺度视觉编码器和后分别加入多层感知机对提取特征进行映射;步骤2.1.2:显著目标编码器使用ResNet

50作为网络骨架,在DOTA数据集上预先训练,用于提取显著目标特征;在显著目标编码器后分别加入全连接层获取对提取特征进行映射;步骤2.1.3:其中文本编码器由Glove模型和双向GRU组成;Glove模型用于将句向量映射成一个300维度大小句向量;双向GRU获取这些句向量的上下文关系,得到初步的文本特征;在文本编码器后加入双流门控模块加强初步的文本特征深层的语义关联,得到词级文本特征。4.如权利要求1~3之一所述一种基于导向视觉语义对齐的遥感图文检索方法,其特征在于,所述步骤三包括以下子步骤:步骤3.1:三元组排序损失函数通过最小化融合视觉嵌入V
MR
和视觉引导的文本嵌入T
RG
在潜在语义空间中的距离实现最终图像和文本之间的对齐;步骤3.2:全局语义损失函数通过最小化多尺度视觉嵌入V
M
和词级文本嵌入T
G
,保证模态输入部分对图像和文本原始语义的不变性,作为融合视觉嵌入和视觉引导的文本嵌入的
外部约束;步骤3.3:组合三元排序损失函数...

【专利技术属性】
技术研发人员:白琮潘建成马青陈胜勇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1