基于文本引导的遥感图像视觉定位方法技术

技术编号:39244392 阅读:9 留言:0更新日期:2023-10-30 11:56
本发明专利技术提出了一种基于文本引导的遥感图像视觉定位方法,实现步骤为:获取训练样本集和测试样本集;构建遥感图像视觉定位网络模型:包括文本引导视觉特征生成网络、文本编码器、多模态融合网络和定位网络;初始化参数;对视觉定位网络模型进行训练;对视觉定位网络模型的参数进行更新;获取视觉定位检测结果;本发明专利技术所构建的定位网络模型使用全局文本特征在通道级别和空间级别对视觉特征的生成进行了引导,充分利用了文本特征的全局语义信息,减少了语义信息中的歧义,而且在多个阶段利用不同层次的文本特征对不同尺度的视觉特征进行引导,充分利用了文本的浅层特征与深层特征,以及不同尺度视觉特征图的空间信息,对原始特征图中不够显著的目标特征进行了补充,有效的提升了遥感图像视觉定位的精度。效的提升了遥感图像视觉定位的精度。效的提升了遥感图像视觉定位的精度。

【技术实现步骤摘要】
基于文本引导的遥感图像视觉定位方法


[0001]本专利技术属于图像处理
,涉及一种基于文本引导的遥感图像视觉定位方法,可应用于环境保护、灾害应急等领域。

技术介绍

[0002]遥感图像是通过遥感器在远离目标和非接触目标物体条件下探测目标地物得到的纪录各种地物电磁波大小的图像。遥感图像定位方法是用于定位和识别遥感图像中目标的方法,可以有效将遥感图像中的地物信息用于生产生活,目前已经广泛应用于环境保护、灾害应急、城市规划、农业生产、地质灾害调查与救治和地球资源调查等领域。遥感图像视觉定位方法的目标是根据用户的文本描述,定位出遥感图像中的指定目标,其重点在于提升定位的精度,然而由于遥感图像尺度大、对象特征不显著的特点,实现准确的目标定位仍是一项巨大的挑战。
[0003]为了提高遥感图像视觉定位的精度,现有技术进行了探索,例如Yang Zhan在2023年2月28日发表在IEEE Transactions on Geoscience and Remote Sensing期刊上的论文RSVG:Exploring Data and Models for Visual Grounding on Remote Sensing Data中设计了一种基于Transformer的多尺度跨模态融合方法,视觉分支使用ResNet50提取多尺度的视觉特征,将不同分辨率的视觉特征经过简单的拼接作为多尺度视觉特征;文本分支使用Bert提取文本特征,然后将[CLS]嵌入和单词特征进行拼接作为最后的文本特征;获得两种模态的特征后,输入到多阶段的Transformer解码器中进行特征融合,最后根据融合特征进行目标定位。该方法针对遥感图像尺度大的特点,较充分的利用了骨干网络提取的多尺度特征,同时利用文本特征进行指导,可以结合来自多层次和多模态特征的有效信息,一定程度上提高了遥感图像视觉定位的精度。但由于其对[CLS]嵌入和单词特征仅采用了拼接操作,文本特征的语义和空间信息仍未得到充分利用,也未充分考虑不同尺度视觉特征的权重占比,导致其视觉定位的准确率较低。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术存在的缺陷,提出了一种基于语义引导的遥感图像视觉定位方法,旨在提高遥感图像视觉定位方法的定位精度。
[0005]为实现上述目的,本专利技术采取的技术方案包括如下步骤:
[0006](1)获取训练样本集和测试样本集:
[0007]对获取的K幅遥感图像中每幅遥感图像所包含的目标进行标注,并将M幅遥感图像及其对应的标签及其文本组成训练样本集R1,将剩余的K

M幅遥感图像及其对应的标签及其文本组成测试样本集E1,其中K≥500,
[0008](2)构建遥感图像视觉定位网络模型G:
[0009]构建包括并行排布的文本引导视觉特征生成网络和文本编码器,以及与文本引导
视觉特征生成网络和文本编码器的输出端依次级联的多模态融合网络和定位网络的遥感图像视觉定位网络模型G;文本引导视觉特征生成网络包括依次级联的下采样块、N个由级联的视觉特征提取模块和文本引导融合模块组成的复合模块,和R个Transformer编码器;文本编码器包括依次级联的N个文本特征提取块,第n个文本特征提取块还与对应的第n个文本引导融合模块连接;多模态融合网络包括并行排布的语言引导模块和上下文引导模块,以及与语言引导模块和上下文引导模块的输出端依次级联的S个Transformer解码器;其中,N≥1,R≥1,S≥1;
[0010](3)初始化参数:
[0011]初始化迭代次数为h,最大迭代次数为H,H≥150,第h次迭代的视觉定位网络模型G
h
的权值、偏置参数分别为w
h
、b
h
,并令h=0,G
h
=G;
[0012](4)对视觉定位网络模型G进行训练:
[0013]将从训练样本集R1中随机有放回的选取L个训练样本作为视觉定位网络模型G的输入进行前向传播,得到L个视觉定位结果,其中,1≤L≤M;
[0014](5)对视觉定位网络模型的参数进行更新:
[0015]通过步骤(4)获得的L个视觉定位结果,对视觉定位网络模型G
h
的权值、偏置参数w
h
、b
h
进行更新,得到本次迭代的网络模型G
h
;并判断h>H是否成立,若是,得到训练好的视觉定位网络模型G*,否则,令G=G
h
,h=h+1,并执行步骤(4);
[0016](6)获取视觉定位检测结果:
[0017]将测试样本集E1作为训练好的视觉定位网络模型G*的输入进行前向传播,得到K

M个测试样本对应的视觉定位结果。
[0018]本专利技术与现有技术相比,具有以下优点:
[0019](1)本专利技术所构建的定位网络模型包含有并行排布的文本引导视觉特征生成网络和文本编码器,在对该模型进行训练以及获取定位结果的过程中,使用全局文本特征在通道级别和空间级别对视觉特征的生成进行了引导,充分利用了文本特征的全局语义信息,减少了语义信息中的歧义,而且在多个阶段利用不同层次的文本特征对视觉特征进行引导,充分利用了文本的浅层特征与深层特征,对遥感图像原始特征图中不够显著的目标特征进行了补充,有效的提升了遥感图像视觉定位的精度。
[0020](2)本专利技术所构建的定位网络模型包含有并行排布的文本引导视觉特征生成网络和文本编码器,在对该模型进行训练以及获取定位结果的过程中,在空间级别使用文本特征对各阶段不同尺度的视觉特征进行了引导,较好的利用了不同尺度视觉特征图的空间信息,进一步提升了遥感图像视觉定位的精度。
附图说明
[0021]图1为本专利技术的实现流程图;
[0022]图2为本专利技术网络模型的整体结构示意图;
[0023]图3为本专利技术文本引导视觉特征生成网络中文本引导融合模块的结构示意图;
[0024]图4为本专利技术多模态融合网络的结构示意图;
[0025]图5为本专利技术多模态融合网络中语言引导模块的结构示意图;
[0026]图6为本专利技术多模态融合网络中上下文引导模块的结构示意图。
具体实施方式
[0027]下面结合附图和具体实施例,对本专利技术作进一步详细描述。
[0028]参照图1,本专利技术包括如下步骤:
[0029]步骤1)获取训练样本集和测试样本集:
[0030]获取DIOR_RSVG数据集包含的19160幅遥感图像,并对每幅遥感图像中的目标和标签进行标注,其中,标签包括标注框以及文本,标注框的格式为(x,y,w,h),x和y分别表示标注框的左上点的x和y坐标,w和h分别表示标注框的宽和高,文本为一个描述目标的句子;将15328幅遥感图像及其对应的标签组成训练样本集R1,将剩余的3832幅遥感图像及其对应的标签组成测试样本集E1[0031]步骤2)构建遥感图像视觉定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本引导的遥感图像视觉定位方法,其特征在于,包括如下步骤:(1)获取训练样本集和测试样本集:对获取的K幅遥感图像中每幅遥感图像所包含的目标进行标注,并将M幅遥感图像与其对应的标注框及其文本组成训练样本集R1,将剩余的K

M幅遥感图像与其对应的标注框及其文本组成测试样本集E1,其中K≥500,(2)构建遥感图像视觉定位网络模型G:构建包括并行排布的文本引导视觉特征生成网络和文本编码器,以及与文本引导视觉特征生成网络和文本编码器的输出端依次级联的多模态融合网络和定位网络的遥感图像视觉定位网络模型G;文本引导视觉特征生成网络包括依次级联的下采样块、N个由级联的视觉特征提取模块和文本引导融合模块组成的复合模块,和R个Transformer编码器;文本编码器包括依次级联的N个文本特征提取块,第n个文本特征提取块还与对应的第n个文本引导融合模块连接;多模态融合网络包括并行排布的语言引导模块和上下文引导模块,以及与语言引导模块和上下文引导模块的输出端依次级联的S个Transformer解码器;其中,N≥1,R≥1,S≥1;(3)初始化参数:初始化迭代次数为h,最大迭代次数为H,H≥150,第h次迭代的视觉定位网络模型G
h
的权值、偏置参数分别为w
h
、b
h
,并令h=0,G
h
=G;(4)对视觉定位网络模型G进行训练:将从训练样本集R1中随机有放回的选取L个训练样本作为视觉定位网络模型G的输入进行前向传播,得到L个视觉定位结果,其中,1≤L≤M;(5)对视觉定位网络模型的参数进行更新:通过步骤(4)获得的L个视觉定位结果,对视觉定位网络模型G
h
的权值、偏置参数w
h
、b
h
进行更新,得到本次迭代的网络模型G
h
;并判断h>H是否成立,若是,得到训练好的视觉定位网络模型G*,否则,令G=G
h
,h=h+1,并执行步骤(4);(6)获取视觉定位检测结果:将测试样本集E1作为训练好的视觉定位网络模型G*的输入进行前向传播,得到K

M个测试样本对应的视觉定位结果。2.根据权利要求1所述的方法,其特征在于,步骤(2)中所述的遥感图像视觉定位网络模型G,其中:文本引导视觉特征生成网络,其所包含的下采样块,包括依次层叠的卷积层、归一化层、非线性激活层和池化层;特征提取块包括顺次连接的多个残差卷积块,每个残差卷积块包括顺次连接的卷积层、归一化层和非线性激活层;文本引导融合模块包含顺次连接的通道级语言引导融合模块和空间级语言引导融合模块;通道级语言引导融合模块包括并行的两个线性投影层及与其连接的通道级乘法块,通道级乘法块包括顺次连接的非线性激活层、卷积层、归一化层和非线性激活层;空间级语言引导融合模块包括顺次连接的线性层和非线性激活层;Transformer编码器包括顺次连接的多头自注意力块和前馈网络块,其中多头自注意力块包含顺次连接的多头自注意力层、dropout层和归一化层,前馈网络块包含顺次连接的两个线性投影层、dropout层和归一化层;
文本编码器,其所包含的特征提取块包括顺次连接的多个由级联的多头自注意力块和前馈网络块组成的Transformer编码器,其中,多头自注意力块包含顺次连接的多头自注意力层、dropout层和归一化层,前馈网络块包含顺次连接的两个线性投影层、dropout层和归一化层;多模态融合网络,其所包含的语言引导模块包括并行排布的语言引导处理块和原始特征处理块,其中语言引导处理块包括顺次连接的多头交叉注意力层、线性投影层、归一化层,原始特征处理块包括级联的线性投影层、归一化层;上下文引导模块包括并行排布的归一化层和上下文引导处理块,其中上下文引导处理块包括依次级联的两个多头交叉注意力模块和归一化层;Transformer解码器,包括顺次连接的多头自注意力块、多头交叉注意力块和前馈网络块,其中多头交叉注意力块包含顺次连接的多头交叉注意力层、dropout层和归一化层;定位网络,包括依次层叠的两个全连接层和非线性激活层。3.根据权利要求2所述的方法,其特征在于,步骤(4)中所述的对视觉定位网络模型G进行训练,实现步骤为:(4a)文本引导视觉特征生成网络对每个训练样本中的图像进行文本引导下的特征...

【专利技术属性】
技术研发人员:王笛赵晓虹王义峰王泉万波田玉敏罗雪梅刘锦辉赵辉潘蓉
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1