【技术实现步骤摘要】
基于长距离依赖机制的多层融合图片分类方法及系统
[0001]本专利技术涉及遥感场景分类技术,特别是一种基于长距离依赖机制的多层融合图片分类方法及系统
。
技术介绍
[0002]遥感图像场景分类是指根据遥感场景的内容推断出语义标签,是近年来遥感影像解译领域的研究热点和重要内容
。
对土地资源规划
、
城市规划
、
交通控制等领域起着至关重要的作用
。
遥感场景图像多数来源于卫星拍摄,随着遥感成像技术的不断进步,图像中往往包含着复杂多样的地形地貌
。
这造成了遥感图像类间相似性高
、
类内差异性大
、
尺度差异性大的分类难题
。
[0003]近年来,深度学习方法在遥感图像场景分类领域取得了快速的发展,特征表示越来越丰富
。
利用神经网络的深层特征提取方法逐渐取代了早期手工设计的方法,致力于提取更丰富的特征表示以及探究特征融合与增强
。
卢孝强等人
[Xiaoqiang Lu et al.,“Afeature aggregation convolutional neural network for remote sensing scene classification,”IEEE Trans.Geosci.Remote.Sens.,vol.57,no.10,pp.7894
–
7906,2019.]发现卷积神经网络中不同层的特征包含着
【技术保护点】
【技术特征摘要】
1.
一种基于长距离依赖机制的多层融合图片分类方法,其特征在于,包括以下步骤:第一步,利用下采样和层归一化构建数据预处理模块,实现图像预处理;第二步,采用多核分组卷积块,对特征图进行分组且每组独立采用不同卷积核,构建多尺度金字塔特征提取模块,实现多尺度特征提取;第三步,将第二步特征学习模块提取的中间三层特征作为输入,送入长距离注意力机制模块,利用视觉转换器中按步长选择的多头注意力机制
、
动态位置学习和多层感知器学习各层级的长距离依赖特征;第四步,利用卷积和池化操作构建尺度规范化模块,对中间层的长距离依赖特征图进行尺度规范化,统一到同一尺寸特征;第五步,多层特征融合模块利用视觉转换器注意力机制原理,计算一
、
二层同尺寸特征两者的相似关系,并与第三层特征相加,获得融合特征;第六步,分类模块将融合后特征依次进行池化
、L2
正则化
、
全连接以及
Softmax
分类器获得各类分类分数,将全局特征依次进行池化
、
全连接以及
Softmax
分类器获得各类分类分数;并通过知识蒸馏损失,计算全局特征与融合特征的散列关系,更新损失,指导全局特征进行学习,进而获得最终分类
。2.
根据权利要求1所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,第一步,采用数据预处理模块,包含下采样和层归一化操作,实现数据预处理,具体过程为:首先对图像
H
×
W
×
N
进行最初的预处理操作,其中
H
代表图片高度,
W
代表图片宽度,
N
代表图片的通道数;通过卷积核大小为
7*7
,卷积个数为
C
,步长为2的卷积层,并进行层归一化,实现2倍下采样操作,图像调整为
H/2
×
W/2
×
C
,其中
C
为特征维度
。3.
根据权利要求2所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,将第一步深预处理后的特征作为输入,利用多核分组卷积块构建多尺度金字塔结构,提取多尺度的中间特征,具体过程为:
(1)
一个多核分组卷积块的组成如下:首先是卷积核大小为
1*1
,步长为1,填充为0的维度调整卷积层,紧接着通过归一化和激活函数;然后是分组卷积,即将特征图进行分组,每个组采用独立的步长为2的卷积核,再拼接各组特征图,通过归一化层和激活函数;卷积核为
1*1
的卷积层,恢复到输入维度的4倍,同样进行归一化层和激活函数;最后与经过池化层下采样
、1*1
的卷积层以及归一化层,调整为输入维度的4倍的初始输入张量相加,作为最终输出;
(2)
共进行四个阶段的多核分组卷积块的堆叠,第一个阶段,多核分组卷积块堆叠3次,分为4组
{G1,G2,G3,G4}
,内核尺寸为
{K
12
,K
22
,K
32
,K
42
}
,输出尺寸为
H/4
×
W/4
×
4C
;进入第二阶段,经过一个维度调整卷积层,维度为
2C
,多核分组卷积块堆叠4次,分为3组
{G1,G2,G3}
,内核尺寸为
{K
12
,K
22
,K
32
}
,输出尺寸为
H/8
×
W/8
×
8C
;进入第三阶段,经过一个维度调整卷积层,维度为
4C
,多核分组卷积块堆叠6次,分为2组
{G1,G2}
,内核尺寸为
{K
12
,K
22
}
,输出尺寸为
H/16
×
W/16
×
16C
;进入第四阶段,经过一个维度调整卷积层,维度为
8C
,多核分组卷积块堆叠3次,分为1组
G1,内核尺寸为
3*3
,输出尺寸为
H/32
×
W/32
×
32C
;此步骤的一
、
二
、
三阶段输出作为长距离注意力机制模块的输入,第四阶段作为全局特征输入分类模块
。4.
根据权利要求3所述的基于长距离依赖机制的多层融合图片分类方法,其特征在于,
将第二步多尺度金字塔特征提取模块一
、
二
、
三阶段提取的特征作为输入,利用视觉转换器的多头注意力和多层感知器,学习各层级的长距离依赖特征,具体过程为:
(1)
将
H/4
×
W/4
×
4C
尺寸的特征图,进行展平处理与正则化变为
(H/4
·
W/4)
×
4C
,接着进行尺寸变形即按照步幅大小为
S
进行选取特征图,得到
H
·
W/(16
·
S2)
×
S2×
4C
,接着通过多头注意力的全连接层与尺寸形变,得到
(H/4
·
W/4)/S2×
n
×
S2×
4C/n
,
n
为多头注意力的个数;接下来是
(H/4
·
W/4)/S2×
n
×
S2×
4C/n
与
(H/4
·
W/4)/S2×
n
×
4C/n
×
S2张量相乘,获得特征尺寸为
(H/4
·
W/4)/S2×
n
×
S2×
S2;
(2)
同时生成
[1
‑
s,s]
的窗口学习动态位置信息,再次进行
(H/4
·
W/4)/S2×
n
×
S2×
S2与
(H/4
·
W/4)/S2×
n
×
S2×
4C/n
张量相乘并且进行尺寸变形后得到尺寸为
(H/4
·
W/4)
×
4C
;
(3)
随后与最初展平处理后的相加,送入多层感知器,依次经过全连层
、
激活层
、
丢弃层
、
全连接层
、
丢弃层,得到尺寸为
(H/4
·
W/4)
×
4C
;
(4)
最后将
(H/4
·
W/4)
×
4C
尺寸变形为
H/4
×
W/4
×
4C
,再与一阶段的输出特征
H/4
×
W/4
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。