基于文本引导的遥感图像视觉定位方法技术

技术编号：39244392 阅读：9 留言：0更新日期：2023-10-30 11:56

本发明专利技术提出了一种基于文本引导的遥感图像视觉定位方法，实现步骤为：获取训练样本集和测试样本集；构建遥感图像视觉定位网络模型：包括文本引导视觉特征生成网络、文本编码器、多模态融合网络和定位网络；初始化参数；对视觉定位网络模型进行训练；对视觉定位网络模型的参数进行更新；获取视觉定位检测结果；本发明专利技术所构建的定位网络模型使用全局文本特征在通道级别和空间级别对视觉特征的生成进行了引导，充分利用了文本特征的全局语义信息，减少了语义信息中的歧义，而且在多个阶段利用不同层次的文本特征对不同尺度的视觉特征进行引导，充分利用了文本的浅层特征与深层特征，以及不同尺度视觉特征图的空间信息，对原始特征图中不够显著的目标特征进行了补充，有效的提升了遥感图像视觉定位的精度。效的提升了遥感图像视觉定位的精度。效的提升了遥感图像视觉定位的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本引导的遥感图像视觉定位方法

[0001]本专利技术属于图像处理
，涉及一种基于文本引导的遥感图像视觉定位方法，可应用于环境保护、灾害应急等领域。

技术介绍

[0002]遥感图像是通过遥感器在远离目标和非接触目标物体条件下探测目标地物得到的纪录各种地物电磁波大小的图像。遥感图像定位方法是用于定位和识别遥感图像中目标的方法，可以有效将遥感图像中的地物信息用于生产生活，目前已经广泛应用于环境保护、灾害应急、城市规划、农业生产、地质灾害调查与救治和地球资源调查等领域。遥感图像视觉定位方法的目标是根据用户的文本描述，定位出遥感图像中的指定目标，其重点在于提升定位的精度，然而由于遥感图像尺度大、对象特征不显著的特点，实现准确的目标定位仍是一项巨大的挑战。
[0003]为了提高遥感图像视觉定位的精度，现有技术进行了探索，例如Yang Zhan在2023年2月28日发表在IEEE Transactions on Geoscience and Remote Sensing期刊上的论文RSVG:Exploring Data and Models for Visual Grounding on Remote Sensing Data中设计了一种基于Transformer的多尺度跨模态融合方法，视觉分支使用ResNet50提取多尺度的视觉特征，将不同分辨率的视觉特征经过简单的拼接作为多尺度视觉特征；文本分支使用Bert提取文本特征，然后将[CLS]嵌入和单词特征进行拼接作为最后的文本特征；获得两种模态的特征后，输入到多...

【技术保护点】

【技术特征摘要】
1.一种基于文本引导的遥感图像视觉定位方法，其特征在于，包括如下步骤：(1)获取训练样本集和测试样本集：对获取的K幅遥感图像中每幅遥感图像所包含的目标进行标注，并将M幅遥感图像与其对应的标注框及其文本组成训练样本集R1，将剩余的K
‑
M幅遥感图像与其对应的标注框及其文本组成测试样本集E1，其中K≥500，(2)构建遥感图像视觉定位网络模型G：构建包括并行排布的文本引导视觉特征生成网络和文本编码器，以及与文本引导视觉特征生成网络和文本编码器的输出端依次级联的多模态融合网络和定位网络的遥感图像视觉定位网络模型G；文本引导视觉特征生成网络包括依次级联的下采样块、N个由级联的视觉特征提取模块和文本引导融合模块组成的复合模块，和R个Transformer编码器；文本编码器包括依次级联的N个文本特征提取块，第n个文本特征提取块还与对应的第n个文本引导融合模块连接；多模态融合网络包括并行排布的语言引导模块和上下文引导模块，以及与语言引导模块和上下文引导模块的输出端依次级联的S个Transformer解码器；其中，N≥1，R≥1，S≥1；(3)初始化参数：初始化迭代次数为h，最大迭代次数为H，H≥150，第h次迭代的视觉定位网络模型G
h
的权值、偏置参数分别为w
h
、b
h
，并令h＝0，G
h
＝G；(4)对视觉定位网络模型G进行训练：将从训练样本集R1中随机有放回的选取L个训练样本作为视觉定位网络模型G的输入进行前向传播，得到L个视觉定位结果，其中，1≤L≤M；(5)对视觉定位网络模型的参数进行更新：通过步骤(4)获得的L个视觉定位结果，对视觉定位网络模型G
h
的权值、偏置参数w
h
、b
h
进行更新，得到本次迭代的网络模型G
h
；并判断h＞H是否成立，若是，得到训练好的视觉定位网络模型G*，否则，令G＝G
h
，h＝h+1，并执行步骤(4)；(6)获取视觉定位检测结果：将测试样本集E1作为训练好的视觉定位网络模型G*的输入进行前向传播，得到K
‑
M个测试样本对应的视觉定位结果。2.根据权利要求1所述的方法，其特征在于，步骤(2)中所述的遥感图像视觉定位网络模型G，其中：文本引导视觉特征生成网络，其所包含的下采样块，包括依次层叠的卷积层、归一化层、非线性激活层和池化层；特征提取块包括顺次连接的多个残差卷积块，每个残差卷积块包括顺次连接的卷积层、归一化层和非线性激活层；文本引导融合模块包含顺次连接的通道级语言引导融合模块和空间级语言引导融合模块；通道级语言引导融合模块包括并行的两个线性投影层及与其连接的通道级乘法块，通道级乘法块包括顺次连接的非线性激活层、卷积层、归一化层和非线性激活层；空间级语言引导融合模块包括顺次连接的线性层和非线性激活层；Transformer编码器包括顺次连接的多头自注意力块和前馈网络块，其中多头自注意力块包含顺次连接的多头自注意力层、dropout层和归一化层，前馈网络块包含顺次连接的两个线性投影层、dropout层和归一化层；
文本编码器，其所包含的特征提取块包括顺次连接的多个由级联的多头自注意力块和前馈网络块组成的Transformer编码器，其中，多头自注意力块包含顺次连接的多头自注意力层、dropout层和归一化层，前馈网络块包含顺次连接的两个线性投影层、dropout层和归一化层；多模态融合网络，其所包含的语言引导模块包括并行排布的语言引导处理块和原始特征处理块，其中语言引导处理块包括顺次连接的多头交叉注意力层、线性投影层、归一化层，原始特征处理块包括级联的线性投影层、归一化层；上下文引导模块包括并行排布的归一化层和上下文引导处理块，其中上下文引导处理块包括依次级联的两个多头交叉注意力模块和归一化层；Transformer解码器，包括顺次连接的多头自注意力块、多头交叉注意力块和前馈网络块，其中多头交叉注意力块包含顺次连接的多头交叉注意力层、dropout层和归一化层；定位网络，包括依次层叠的两个全连接层和非线性激活层。3.根据权利要求2所述的方法，其特征在于，步骤(4)中所述的对视觉定位网络模型G进行训练，实现步骤为：(4a)文本引导视觉特征生成网络对每个训练样本中的图像进行文本引导下的特征...

【专利技术属性】
技术研发人员：王笛，赵晓虹，王义峰，王泉，万波，田玉敏，罗雪梅，刘锦辉，赵辉，潘蓉，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人