一种基于跨模态视觉-文本融合的遥感图像分割方法技术

技术编号:44580130 阅读:16 留言:0更新日期:2025-03-14 12:42
本发明专利技术提供一种基于跨模态视觉‑文本融合的遥感图像分割方法,主体网络包括可以提取图像特征的图像编码器、提取语言特征的语言编码器、可以进行分割引导的跨模态视觉语言特征融合器、图像解码器模块设计,并设计非关键过滤器让模型更加聚焦于语言描述中的关键词,设计中心点预测器增强模型识别困难目标的能力,设计目标区域预测器让模型找出最可能包含目标的区域,设计虚警预测器来处理描述虚假目标的情况。最终搭建基于跨模态视觉‑文本融合的遥感图像指示分割网络模型,进行网络模型训练与参数优化。本网络模型所有模块都是基于Transformer模型,通过引入注意力机制捕获遥感图像局部特征与全局特征的的关系依赖以及遥感图像各区域与语言描述的关系依赖,使用跨模态视觉语言特征融合器使模型更加关注描述目标所在区域,最终实现从遥感场景图像中识别特定描述的目标。

【技术实现步骤摘要】

本专利技术涉及跨模态图像识别技术,具体涉及一种基于跨模态视觉-文本融合的遥感图像分割方法,属于计算机视觉与自然语言处理的交叉。


技术介绍

1、图像分割作为计算机视觉的重要研究领域,在遥感场景图像领域存在大量研究。传统图像分割可以识别出图像中所有目标,但却不能识别特定目标。如何让计算机可以理解人类的自然语言,并根据语义以人类视角观察世界并做出相应操作,已经成为研究热点。指示分割是一个基础的视觉语言跨模态融合任务,给定一张图像和一句自然语言表达式,目标是在图像中产生一个与自然语言表达式所指实体相对应的分割掩码。在遥感场景图像领域,指示分割共有三大难点:遥感图像特性带来的难点、以及图像与语言特征对齐的难点、模型如何识别关键语义信息来提升分割质量的难点,因此遥感图像指示分割始终缺乏相应研究。

2、国内外早在2016年就有指示分割的相关研究。指示分割本身有两大难点,首先是如何很好地对齐语言特征与视觉特征,其次是如何让模型如何目前,大多数现有方法都遵循在知名数据集如referit和refcoco中定义的规则,并在近年来取得了巨大进展。这些年来主要有两种做法本文档来自技高网...

【技术保护点】

1.一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于,包括:

2.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

3.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

4.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

5.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

6.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

7.根据权利要求1所...

【技术特征摘要】

1.一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于,包括:

2.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

3.根据权利要求1所述的一种基于跨模态视觉-文本融合的遥感图像分割方法,其特征在于:

4.根据权利要求1所述的一种基于跨模态视觉-文本融...

【专利技术属性】
技术研发人员:赵显宇赵琦凌鑫阳王春雷李萌谢宏波李占鳌赵克军
申请(专利权)人:中国航空工业集团公司洛阳电光设备研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1