一种遥感场景图像多标签分类方法和装置、存储介质制造方法及图纸

技术编号:36337457 阅读:11 留言:0更新日期:2023-01-14 17:49
本发明专利技术公开一种遥感场景图像多标签分类方法和装置、存储介质,包括:提取遥感场景图像特征;将所述遥感场景图像特征转化为每个类别标签对应的标签嵌入;根据所述标签嵌入之间相关性,得到第一类间关系矩阵;根据所述第一类间关系矩阵构建蒙版,得到第二类间关系矩阵;根据所述第二类间关系矩阵更新所述标签嵌入,得到每一个类别标签的预测分数;根据所述每一个类别标签的预测分数,确定所述遥感场景图像的标签。采用本发明专利技术的技术方案,以解决现有技术在建模类间关系时没有排除图像中不存在的类别造成偏差的问题。类别造成偏差的问题。类别造成偏差的问题。

【技术实现步骤摘要】
一种遥感场景图像多标签分类方法和装置、存储介质


[0001]本专利技术属于遥感图像处理
,尤其涉及一种基于蒙版注意力机制的遥感场景图像的多标签分类方法和装置、存储介质。

技术介绍

[0002]近年来,随着遥感技术的不断发展,机载和星载遥感影像已经广泛用于土地覆盖测绘和监测。一般来说,由于高分辨率遥感图像所描绘的土地覆盖物种类繁多,只用单个标签无法准确描述图像中的内容。多标签遥感图像分类方法能够为每幅遥感影像分配多个土地覆盖标签,从而准确地表达遥感图像的,更符合遥感图像理解的实际需求。
[0003]最近基于深度学习的视觉特征提取器在图像识别领域取得巨大的进步,比如DCNN(Deep Convolutional Neural Network,深度卷积神经网络)中的ResNet(深度残差网络)和Visual Transformer(视觉转换器)中的Swin Transformer(Hierarchical Vision Transformer using Shifted Windows,使用移位窗口的分层视觉转换器)。这些特征提取器能够提取更容易分辨的高级语义特征,对单标签图像分类有很大帮助。然而,与遥感图像的单标签分类相比,遥感图像的多标签分类是一个更加复杂的任务。一方面,在一幅遥感图像中,存在多个不同空间分辨率的地表覆盖物。例如,“汽车”的大小远小于“球场”,因此,“汽车”是不显眼的类别之一。另一方面,由于在遥感图像中,土地覆盖对象通常是共存的,所以类间关系是分类的另一个关键。因此,遥感图像的多标签分类任务不仅考虑精确的空间特征提取,还考虑多个类别之间的相关性。
[0004]在典型的多标签图像分类中,空间信息的利用和类间关系都是重要的问题。处理空间信息的方法主要有,引入区域建议,隐式空间注意,或者多尺度特征。引入区域建议需要额外的边界框标注,所述的边界框标注需要耗费巨大的人力成本。使用隐式的空间注意能够通过分类损失的监督来自动定位各个类别对象在图像中的位置,而无需人工标注的边界框监督。使用多尺度特征能够一定程度上增加模型对不同尺度的对象的识别能力,但是会增加计算量。
[0005]另一方面,类间关系的建模也得到广泛研究。早期的方法使用RNN(Recurrent Neural Network,循环神经网络)或LSTM(Long Short

Term Memory,长短时记忆)按照顺序的方式预测图像中的多个标签,并学习标签的顺序相关性。然而,基于RNN或者LSTM的方法的性能受到预先设置或学习到的顺序的影响。其他一些研究将多标签图像分类任务描述为基于概率图形模型的结构推理问题,但由于计算复杂度高,其实用性受到限制。受GCN(Graph Convolutional Neural Network,图卷积神经网络)在多元关系表示方面的启发,部分研究人员使用GCN来显式建模标签相关性。卷积神经网络性能受限于卷积的感受野,长范围的关系建模效果较差。基于注意力机制的Transformer(转换器)使用自注意机制学习一个长序列中每一对元素之间的关系,在长范围关系建模方面比卷积神经网络更有优势。目前Transformer已经在自然语言处理和计算机视觉领域都已经有广泛的应用。
[0006]针对多标签分类中的广泛存在的两类问题:需要更精确的空间信息和类间关系建
模,现有的遥感图像的多标签分类方法主要分为两种:处理空间的方法和处理类间关系的方法,但是缺乏综合考虑这两个问题的方法。同时,现有的类间关系建模方法通常都是直接建模所有类别之间的整体标签依赖关系。然而,单一图像中只存在部分类别对象,从图像中提取的视觉特征大多与真实标签相关,而缺乏与不存在的类别相关的特征。通过因此,在不存在的类别之间计算的类间关系是不准确的。这些不准确的标签间依赖关系给分类任务带来噪声。

技术实现思路

[0007]本专利技术要解决的技术问题是,提供一种基于蒙版注意力机制的遥感场景图像的多标签分类方法和装置、存储介质,以解决现有技术在建模类间关系时没有排除图像中不存在的类别造成偏差的问题。
[0008]为实现上述目的,本专利技术采用如下的技术方案:
[0009]一种遥感场景图像多标签分类方法,包括以下步骤:
[0010]步骤S1、提取遥感场景图像特征;
[0011]步骤S2、将所述遥感场景图像特征转化为每个类别标签对应的标签嵌入;
[0012]步骤S3、根据所述标签嵌入之间相关性,得到第一类间关系矩阵;
[0013]步骤S4、根据所述第一类间关系矩阵构建蒙版,得到第二类间关系矩阵;
[0014]步骤S5、根据所述第二类间关系矩阵更新所述标签嵌入,得到每一个类别标签的预测分数;
[0015]步骤S6、根据所述每一个类别标签的预测分数,确定所述遥感场景图像的标签。
[0016]作为优选,步骤S2包括:
[0017]将所述遥感场景图像特征转化为类别特定激活;
[0018]根据所述遥感场景图像特征和所述类别特定激活得到每个类别标签对应的标签嵌入。
[0019]作为优选,步骤S3具体为:通过多头点积自注意力机制学习所述标签嵌入之间的相关性,获得第一类间关系矩阵;首先标签嵌入E被分为h个子序列[e1,e2,

,e
h
],i=1,2,

,h;然后对于每个子序列e
i
,学习三个权重矩阵使用以下公式将子序列e
i
转换为向量Q
i
,K
i
,V
i

[0020][0021]计算所述向量Q
i
和K
i
的点积并映射(0,1)区间内,得到所述第一类间关系矩阵。
[0022]作为优选,步骤S4具体为:使用全局最大池化函数将所述类别特定激活转化为遥感场景图像的类别预测分数1;根据所述类别预测分数1,选择其中数值最高的前k位的索引,加入集合I中;
[0023]使用以下公式构建蒙版:
[0024][0025]使用以下公式过滤不准确的类间关系:
[0026]得到第二类间关系矩阵[A1,A2,

,A
h
]。
[0027]作为优选,步骤S5具体为:
[0028]使用以下公式更新所述标签嵌入E:
[0029]E=E+A(E,E,E),
[0030]E=σ(EP1+b1)P2+b2+E,
[0031]其中,σ(
·
)是指非线性激活函数,P1、P2、b1、b2为学习参数;
[0032]根据所述更新后的标签嵌入,获得类别预测分数2;
[0033]选取类别预测分数1和类别预测分数2的均值,得到最终的每一个类别标签的预测分数。
[0034]作为优选,步骤S6使用以下方法确定所述遥感场景图像的标签,
[0035][0036]其中,Y
i
...

【技术保护点】

【技术特征摘要】
1.一种遥感场景图像多标签分类方法,其特征在于,包括以下步骤:步骤S1、提取遥感场景图像特征;步骤S2、将所述遥感场景图像特征转化为每个类别标签对应的标签嵌入;步骤S3、根据所述标签嵌入之间相关性,得到第一类间关系矩阵;步骤S4、根据所述第一类间关系矩阵构建蒙版,得到第二类间关系矩阵;步骤S5、根据所述第二类间关系矩阵更新所述标签嵌入,得到每一个类别标签的预测分数;步骤S6、根据所述每一个类别标签的预测分数,确定所述遥感场景图像的标签。2.如权利要求1所述的遥感场景图像多标签分类方法,其特征在于,步骤S2包括:将所述遥感场景图像特征转化为类别特定激活;根据所述遥感场景图像特征和所述类别特定激活得到每个类别标签对应的标签嵌入。3.如权利要求2所述的遥感场景图像多标签分类方法,其特征在于,其特征在于,步骤S3具体为:通过多头点积自注意力机制学习所述标签嵌入之间的相关性,获得第一类间关系矩阵;首先标签嵌入E被分为h个子序列然后对于每个子序列e
i
,学习三个权重矩阵使用以下公式将子序列e
i
转换为向量Q
i
,K
i
,V
i
:计算所述向量Q
i
和K
i
的点积并映射(0,1)区间内,得到所述第一类间关系矩阵。4.如权利要求3所述的遥感场景图像多标签分类方法,其特征在于,步骤S4具体为:使用全局最大池化函数将所述类别特定激活转化为遥感场景图像的类别预测分数1;根据所述类别预测分数1,选择数值最高的前k位的索引,加入集合I中;使用以下公式...

【专利技术属性】
技术研发人员:刘宏哲吴宏俊刘力铭徐成代松银潘卫国徐冰心
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1