【技术实现步骤摘要】
一种基于多模态空域变换网络的遥感图像场景分类方法
[0001]本专利技术属于遥感图像分类识别领域,具体涉及一种基于多模态空域变换网络的遥感图像场景分类方法。
技术介绍
[0002]多模态数据,即包含多种数据类型的数据,比如文本、图像、视频、音频等,目前已经在许多实际应用场景中得到了广泛的应用,如图像分类、自动驾驶以及显著性检测。多模态数据的研究具有广阔的发展前景,可以为人工智能应用提供更加丰富和准确的信息。结合多模态数据的内部信息可以有效融合互补特征,避免单一模态的某些信息被遗漏。但是,大部分基于多模态的研究工作仅仅是将不同传感器捕获的图像作为不同的模态,没有实现真正的跨模态,提取的特征仍然存在一定的局限性。
[0003]遥感图像场景分类主要是将输入图像映射到离散的标签中,但是网络从图像中提取到的特征是有限的,在训练过程中也完全忽略了与每幅图像相关的其它形式的信息。现有的大部分研究内容都是针对图像这种单一模态进行的,缺乏跨模态的相关工作。由于缺少不同模态间的互补信息,网络提取的特征对复杂场景的特征鉴别能力不足。数据的类型是多种多样的,从这些多模态数据中可以学习到其它形式的信息来帮助识别图像类别。目前在自然图像领域中已经有许多多模态框架被提出以探索不同模态间的潜在依赖关系,但由于遥感图像的多样性和复杂性,为自然图像提出的方法不能用来很好地建立遥感模态间的关系。因此如何有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐仍然是一个难题。
技术实现思路
[0004]为解决上述技术问题,
【技术保护点】
【技术特征摘要】
1.一种基于多模态空域变换网络的遥感图像场景分类方法,其特征在于,包括:S1:获取含场景类别标签的遥感图像组成训练数据集;S2:建立遥感图像分类模型;所述模型包括ResNet50预训练网络模块、循环空域变换模块、类名嵌入模块;所述ResNet50预训练网络模块包括Conv
‑
1、Res
‑
2、Res
‑
3、Res
‑
4、Res
‑
5、空洞空间金字塔池化层、全局平均池化层和Softmax层;S3:将训练数据集中的遥感图像输入遥感图像分类模型进行模型训练;S31:将遥感图像输入ResNet50预训练网络模块获取多层特征,多层特征经过空洞空间金字塔进行特征交互并通过全局平均池化输出整体特征f1,特征f1经过Softmax层得到图像的预测分类结果;S32:循环空域变换模块将不同层级的特征进行循环式自适应空间变换;S33:将图像的类别标签输入类名嵌入模块,通过GloVe模型与多头自注意力机制提取遥感图像类别的语义信息,并经过Softmax层得到文本的预测分类结果;S34:将类名的语义信息与循环式自适应空间变换后特征进行逐像素加权融合,得到判别性特征f2;S35:根据图像、文本的预测分类结果分别建立图像、文本的分类损失,根据整体特征f1和判别性特征f2建立相似度损失;S36:将图像、文本的分类损失以及相似度损失作为遥感图像分类模型最终的损失函数,当损失函数值最小时完成模型的训练;S4:将待分类的遥感图像输入训练好的遥感图像分类模型进行分类,得到分类结果。2.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法,其特征在于,将遥感图像输入ResNet50预训练网络模块获取多层特征,包括:将遥感图像输入Conv
‑
1层进行图像增强,增强后的图像经过Res
‑
2、Res
‑
3、Res
‑
4、Res
‑
5进行逐层特征提取,得到多层特征。3.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法,其特征在于,将不同层级的特征进行循环式自适应空间变换,包括:将ResNet50预训练网络中Res
‑
2、Res
‑
3、Res
‑
4不同层级的特征进行循环式自适应空间变换:将特征图输入到定位网络中,产生变换参数θ,在定位网络中,依次通过5
×
5和3
×
3不同大小的卷积核来提取特征,并利用1
×
【专利技术属性】
技术研发人员:宋铁成,郑红宇,谢林男,马欣冉,吴梦怡,季薇,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。