当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于卷积神经网络和多层感知机的遥感影像场景分类方法技术

技术编号:38468424 阅读:23 留言:0更新日期:2023-08-11 14:45
本发明专利技术提出了一种基于卷积神经网络和多层感知机的遥感影像场景分类方法。通过在线地图服务或利用无人机等设备实地拍摄一块区域的遥感影像构建训练集和测试集,使用先进的数据增强方法对训练集进行扩充用以提升模型的泛化性能,形成最终的输入张量。使用卷积神经网络和多层感知机提取影像的局部特征和全局特征,通过设置不同大小的卷积核,得到多尺度信息,将这些多尺度信息相加之后,使用全连接神经网络进行分类。本发明专利技术从遥感影像的基本特点出发,充分考虑了遥感影像的特点从而设计了针对这些特点的网络结构,通过卷积神经网络和多层感知机协同提取特征,并使用全连接神经网络进行场景分类。络进行场景分类。络进行场景分类。

【技术实现步骤摘要】
一种基于卷积神经网络和多层感知机的遥感影像场景分类方法


[0001]本专利技术属于遥感影像处理与人工智能领域,特别涉及一种基于卷积神经网络和多层感知机的场景分类方法,能够对一幅遥感影像中的主要场景进行正确且高效地分类。

技术介绍

[0002]与自然图像分类不同,遥感影像分类是一个总体概念。它具体包括像素级分类和场景级分类。在早期研究与生产中,由于遥感影像的空间分辨率低,一个像素的大小与目标地物大小相似,所以当时的重点在遥感影像的像素级分类即语义分割。随着遥感成像技术的发展,仅仅在像素级分类已经无法满足需求,所以在这种情况下,理解遥感影像的整体内容具有重大意义,场景分类成为了一个新的研究重点。
[0003]传统的遥感影像分类方法依赖于人工提取特征,然后将这些特征利用KNN、SVM等算法进行分类。人工设计特征效率较低,而且人工设计的特征会偏向于某一种或多种特性,这种特征可能不适用于所有类型的图像。深度神经网络解决了这些问题,利用深度神经网络分类图像时,不再将特征提取和分类作为两个独立的步骤,而是将二者合为一步。深度神经网络提取的特征多,分布本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络和多层感知机的遥感影像场景分类方法,其特征在于,包含以下步骤:步骤1:获取足够的遥感影像集,将这些影像按场景分为多个类别,然后对于多通道的遥感影像,首先将其转换为三通道的输入张量,并且给每个类别赋予数字标签,数字标签从0开始编号;然后从这些将这些影像和对应的标签构建训练集和验证集;步骤2:将训练集中的张量进行数据增强以扩充训练集,提升模型的泛化能力,构建出最终的训练集张量;步骤3:将步骤2得到的扩充后的数据集作为卷积

多层感知机网络的输入数据;步骤4:构建卷积

多层感知机网络,首先对输入数据进行卷积操作,然后送入后续结构提取输入数据中的多种深层特征,后续结构包括多个Stage,每个Stage之间存在一次下采样,每个Stage均包含多个Block,每个Block中,依次经过一次标准卷积和多层感知机,最后经过一次前向传播层,每次经过多层感知机和前向传播层之前均先进行一次层归一化LayerNorm,经过多个Stage之后利用一次全局平均池化使得每个通道只包含一个特征元素,形成特征向量;步骤5:重复步骤4,并在Block中设置不同窗口大小的标准卷积的卷积核得到多个同维度的特征向量,将这些特征向量相加之后得到具有多尺度特征、局部特征和全局特征的特征向量;步骤6:将步骤5得到的特征向量进行一次层归一化LayerNorm,然后利用全连接神经网络对步骤5得到的特征向量进行概率预测,将概率最大的那个类作为分类结果输出;步骤7:将训练集的数字标签和步骤6得到的分类结果代入损失函数,计算预测结果与真实标签的损失值,利用这个损失函数优化步骤4

步骤6中的整体模型,得到对当前遥感影像集的分类结果。2.根据权利要求1所述的基于卷积神经网络和多层感知机的遥感影像场景分类方法,其特征在于:步骤1所述的遥感影像集在线地图服务商获取,或在实际生产中使用无人机设备实地获取,将遥感数据集记为A,其中每张影像记为a
s
,对应的数字标签记为s,若一共由S个类,则具体定义为:A={(a
s
,)|∈[0,S

1]}其中A表示遥感影像集,包括影像和标签;a
s
和s表示编号为s的数字标签以及对应的影像集a
s
;步骤1所述的训练集和验证集划分方式如下:从集合A中X个元素均匀地随机选择T个元素作为训练集,用A
train
表示,剩下X

P个元素作为验证集,用A
val
表示。3.根据权利要求1所述的基于卷积神经网络和多层感知机的遥感影像场景分类方法,其特征在于:步骤2所述的数据增强包括图像融合、裁剪填充、随机擦除和随机增强;图像融合是将两个不同的样本进行线性混合从而产生一个新的样本,图像融合的公式如下:
其中x
i
和x
j
分别为随机选取的原始输入张量,y
i
和y
j
分别是x
i
和x
j
对应的数字标签,这些数字标签都经过了one

hot编码,λ∈[0,1]且满足Beta分布,即λ~Beta(α,α),α控制插值的强度;裁剪填充是在一幅影像中裁剪出一个矩形区域,然后使用另一幅影像的同大小区域进行填充,裁剪填充的公式如下:行填充,裁剪填充的公式如下:M∈{0,1}
W
×
H
是二值掩膜,表示从两幅图像裁取和填充区域的位置,

是逐元素乘法,和图像融合一样,λ∈[0,1]且满足Beta分布,即λ~Beta(α,α),根据实践经验,α取值一般为1,所以λ此时从均匀分布(0,1)中采样;为了得到掩膜M,首先需要确定两幅影像中裁剪框的坐标B=(r
x
,r
y
,r
w
,r
h
),掩膜的长宽和原图的长宽成正比,裁剪框坐标按如下公式计算:r
x
=Unif(0,W),r
y
=Unif(0,H),随机擦除是以一定概率随机选取一块区域,然后对这块区域用随机数或数据集的像素平均值填充,被擦除区域的大小、形状、颜色参数都是随机生成;随机增强是通过随机选取一定数量的变换操作,对训练数据进行随机组合,从而生成增强后的数据,每个变换操作都有一定的概率被选择,并且每个变换操作的参数也是随机生成的,以增加数据的多样性;在实际应用中,通过超参数来控制变换操作的数量和强度,从而平衡增强数据的多样性和模型训练的效率;经过这些数据增强之后,构建出整个深度学习模...

【专利技术属性】
技术研发人员:闫利汪若飞
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1