基于长距离依赖机制的多层融合图片分类方法及系统技术方案

技术编号:39755617 阅读:15 留言:0更新日期:2023-12-17 23:54
本发明专利技术公开了一种基于长距离依赖机制的多层融合图片分类方法及系统,方法包括:采用多核分组卷积构造多尺度金字塔特征提取模型,进行多尺度特征提取;采取长距离注意力机制,利用视觉转换器中按步长选择的多头注意力机制

【技术实现步骤摘要】
基于长距离依赖机制的多层融合图片分类方法及系统


[0001]本专利技术涉及遥感场景分类技术,特别是一种基于长距离依赖机制的多层融合图片分类方法及系统


技术介绍

[0002]遥感图像场景分类是指根据遥感场景的内容推断出语义标签,是近年来遥感影像解译领域的研究热点和重要内容

对土地资源规划

城市规划

交通控制等领域起着至关重要的作用

遥感场景图像多数来源于卫星拍摄,随着遥感成像技术的不断进步,图像中往往包含着复杂多样的地形地貌

这造成了遥感图像类间相似性高

类内差异性大

尺度差异性大的分类难题

[0003]近年来,深度学习方法在遥感图像场景分类领域取得了快速的发展,特征表示越来越丰富

利用神经网络的深层特征提取方法逐渐取代了早期手工设计的方法,致力于提取更丰富的特征表示以及探究特征融合与增强

卢孝强等人
[Xiaoqiang Lu et al.,“Afeature aggregation convolutional neural network for remote sensing scene classification,”IEEE Trans.Geosci.Remote.Sens.,vol.57,no.10,pp.7894

7906,2019.]发现卷积神经网络中不同层的特征包含着不同的空间信息和语义信息,通过聚合中间特征
(
卷积特征和全连接层特征
)
,显著提高了遥感分类精度

石翠萍等人
[
一种基于注意力机制的多分支特征融合遥感场景图像分类方法
:CN202110192358.9[P].2021

05

28.]提出一种用于融合多分支特征的策略,在多个分支提取特征信息后,结合使用注意力机制,将分支信息进行再提取,最后融合多段特征

随着深度学习的推进,视觉转换器崭露头角,在自然语言处理中取得突出成绩,随后广泛应用到视觉任务中,郝思媛等人
[
一种双流
Swin Transformer
遥感场景分类方法
:CN202210372827.X[P].2022

08

23.]通过两个结构相同的
Swin Transformer
分别提取原始特征和边缘特征,并将两个特征进行融合,从而提高分类性能

[0004]上述的方法,从不同角度考虑了遥感图像场景分类的复杂性,前两个方法利用特征融合和注意力机制等增强了卷积网络的特征表示能力,最后一个利用视觉转换器捕获长距离依赖关系

但是没有将两者的优势很好地结合,没能用长距离特征捕获弥补卷积神经网络全局特征捕获上能力的不足


技术实现思路

[0005]本专利技术的目的在于提出一种基于长距离依赖机制的多层融合图片分类方法及系统,充分利用中间层丰富的语义特征,以及长距离依赖关系处理图像分类中类间相似性高

类内差异性大

尺度差异性大的分类问题,且分类性能优异

[0006]实现本专利技术目的的技术解决方案为:第一方面,本专利技术提供一种基于长距离依赖机制的多层融合图片分类方法,包括以下步骤:
[0007]第一步,利用下采样和层归一化构建数据预处理模块,实现图像预处理;
[0008]第二步,将采用多核分组卷积块,对特征图进行分组且每组独立采用不同卷积核,构建多尺度金字塔特征提取模块,实现多尺度特征提取;
[0009]第三步,将第二步特征学习模块提取的中间三层特征作为输入,送入长距离注意力机制模块,利用视觉转换器中按步长选择的多头注意力机制

动态位置学习和多层感知器学习各层级的长距离依赖特征;
[0010]第四步,利用卷积和池化操作构建尺度规范化模块,对中间层的长距离依赖特征图进行尺度规范化,统一到同一尺寸特征;
[0011]第五步,多层特征融合模块利用视觉转换器注意力机制原理,计算一

二层同尺寸特征两者的相似关系,并与第三层特征相加,获得融合特征;
[0012]第六步,分类模块将融合后特征依次进行池化
、L2
正则化

全连接以及
Softmax
分类器获得各类分类分数,将全局特征依次进行池化

全连接以及
Softmax
分类器获得各类分类分数;并通过知识蒸馏损失,计算全局特征与融合特征的散列关系,更新损失,指导全局特征进行学习,进而获得最终分类

[0013]进一步的,第一步中,采用数据预处理模块,包含下采样和层归一化操作,实现数据预处理,具体过程为:
[0014]首先对图像
H
×
W
×
N
进行最初的预处理操作,其中
H
代表图片高度,
W
代表图片宽度,
N
代表图片的通道数;通过卷积核大小为
7*7
,卷积个数为
C
,步长为2的卷积层,并进行层归一化,实现2倍下采样操作,图像调整为
H/2
×
W/2
×
C
,其中
C
为特征维度

[0015]进一步的,将第一步深预处理后的特征作为输入,利用多核分组卷积块构建多尺度金字塔结构,提取多尺度的中间特征,具体过程为:
[0016](1)
一个多核分组卷积块的组成如下:
[0017]首先是卷积核大小为
1*1
,步长为1,填充为0的维度调整卷积层,紧接着通过归一化和激活函数;然后是分组卷积,即将特征图进行分组,每个组采用独立的步长为2的卷积核,再拼接各组特征图,通过归一化层和激活函数;卷积核为
1*1
的卷积层,恢复到输入维度的4倍,同样进行归一化层和激活函数;最后与经过池化层下采样
、1*1
的卷积层以及归一化层,调整为输入维度的4倍的初始输入张量相加,作为最终输出;
[0018](2)
共进行四个阶段的多核分组卷积块的堆叠,第一个阶段,多核分组卷积块堆叠3次,分为4组
{G1,G2,G3,G4}
,内核尺寸为
{K
12
,K
22
,K
32
,K
42
}
,输出尺寸为
H/4
×
W/4
×
4C
;进入第二阶段,经过一个维度调整卷积层,维度为
2C...

【技术保护点】

【技术特征摘要】
1.
一种基于长距离依赖机制的多层融合图片分类方法,其特征在于,包括以下步骤:第一步,利用下采样和层归一化构建数据预处理模块,实现图像预处理;第二步,采用多核分组卷积块,对特征图进行分组且每组独立采用不同卷积核,构建多尺度金字塔特征提取模块,实现多尺度特征提取;第三步,将第二步特征学习模块提取的中间三层特征作为输入,送入长距离注意力机制模块,利用视觉转换器中按步长选择的多头注意力机制

动态位置学习和多层感知器学习各层级的长距离依赖特征;第四步,利用卷积和池化操作构建尺度规范化模块,对中间层的长距离依赖特征图进行尺度规范化,统一到同一尺寸特征;第五步,多层特征融合模块利用视觉转换器注意力机制原理,计算一

二层同尺寸特征两者的相似关系,并与第三层特征相加,获得融合特征;第六步,分类模块将融合后特征依次进行池化
、L2
正则化

全连接以及
Softmax
分类器获得各类分类分数,将全局特征依次进行池化

全连接以及
Softmax
分类器获得各类分类分数;并通过知识蒸馏损失,计算全局特征与融合特征的散列关系,更新损失,指导全局特征进行学习,进而获得最终分类
。2.
根据权利要求1所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,第一步,采用数据预处理模块,包含下采样和层归一化操作,实现数据预处理,具体过程为:首先对图像
H
×
W
×
N
进行最初的预处理操作,其中
H
代表图片高度,
W
代表图片宽度,
N
代表图片的通道数;通过卷积核大小为
7*7
,卷积个数为
C
,步长为2的卷积层,并进行层归一化,实现2倍下采样操作,图像调整为
H/2
×
W/2
×
C
,其中
C
为特征维度
。3.
根据权利要求2所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,将第一步深预处理后的特征作为输入,利用多核分组卷积块构建多尺度金字塔结构,提取多尺度的中间特征,具体过程为:
(1)
一个多核分组卷积块的组成如下:首先是卷积核大小为
1*1
,步长为1,填充为0的维度调整卷积层,紧接着通过归一化和激活函数;然后是分组卷积,即将特征图进行分组,每个组采用独立的步长为2的卷积核,再拼接各组特征图,通过归一化层和激活函数;卷积核为
1*1
的卷积层,恢复到输入维度的4倍,同样进行归一化层和激活函数;最后与经过池化层下采样
、1*1
的卷积层以及归一化层,调整为输入维度的4倍的初始输入张量相加,作为最终输出;
(2)
共进行四个阶段的多核分组卷积块的堆叠,第一个阶段,多核分组卷积块堆叠3次,分为4组
{G1,G2,G3,G4}
,内核尺寸为
{K
12
,K
22
,K
32
,K
42
}
,输出尺寸为
H/4
×
W/4
×
4C
;进入第二阶段,经过一个维度调整卷积层,维度为
2C
,多核分组卷积块堆叠4次,分为3组
{G1,G2,G3}
,内核尺寸为
{K
12
,K
22
,K
32
}
,输出尺寸为
H/8
×
W/8
×
8C
;进入第三阶段,经过一个维度调整卷积层,维度为
4C
,多核分组卷积块堆叠6次,分为2组
{G1,G2}
,内核尺寸为
{K
12
,K
22
}
,输出尺寸为
H/16
×
W/16
×
16C
;进入第四阶段,经过一个维度调整卷积层,维度为
8C
,多核分组卷积块堆叠3次,分为1组
G1,内核尺寸为
3*3
,输出尺寸为
H/32
×
W/32
×
32C
;此步骤的一



三阶段输出作为长距离注意力机制模块的输入,第四阶段作为全局特征输入分类模块
。4.
根据权利要求3所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,
将第二步多尺度金字塔特征提取模块一



三阶段提取的特征作为输入,利用视觉转换器的多头注意力和多层感知器,学习各层级的长距离依赖特征,具体过程为:
(1)

H/4
×
W/4
×
4C
尺寸的特征图,进行展平处理与正则化变为
(H/4
·
W/4)
×
4C
,接着进行尺寸变形即按照步幅大小为
S
进行选取特征图,得到
H
·
W/(16
·
S2)
×
S2×
4C
,接着通过多头注意力的全连接层与尺寸形变,得到
(H/4
·
W/4)/S2×
n
×
S2×
4C/n

n
为多头注意力的个数;接下来是
(H/4
·
W/4)/S2×
n
×
S2×
4C/n

(H/4
·
W/4)/S2×
n
×
4C/n
×
S2张量相乘,获得特征尺寸为
(H/4
·
W/4)/S2×
n
×
S2×
S2;
(2)
同时生成
[1

s,s]
的窗口学习动态位置信息,再次进行
(H/4
·
W/4)/S2×
n
×
S2×
S2与
(H/4
·
W/4)/S2×
n
×
S2×
4C/n
张量相乘并且进行尺寸变形后得到尺寸为
(H/4
·
W/4)
×
4C

(3)
随后与最初展平处理后的相加,送入多层感知器,依次经过全连层

激活层

丢弃层

全连接层

丢弃层,得到尺寸为
(H/4
·
W/4)
×
4C

(4)
最后将
(H/4
·
W/4)
×
4C
尺寸变形为
H/4
×
W/4
×
4C
,再与一阶段的输出特征
H/4
×
W/4

【专利技术属性】
技术研发人员:肖亮黄姮祎
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1