一种多编码器融合的多光谱图像语义分割方法技术

技术编号:31234583 阅读:22 留言:0更新日期:2021-12-08 10:14
本发明专利技术公开了一种多编码器融合的多光谱图像语义分割方法,本发明专利技术基于对不同通道数的多光谱图像提出了一种自适应的语义分割方法,先将多光谱图像的红、绿、蓝三个通道组合成类普通光学图像通过RGB编码器进行编码,然后将其余的多光谱通道通过各编码器进行编码,将各编码器特征图像融合输入解码器中,解码过程中使用跨层连接,将RGB编码器和解码器的特征图像进行拼接融合,最后输出语义分割的结果。本发明专利技术基于多光谱图像提出了一种自适应的语义分割方法,语义分割的结果在精确率、准确率等方面有明显提升。方面有明显提升。方面有明显提升。

【技术实现步骤摘要】
一种多编码器融合的多光谱图像语义分割方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种多编码器融合的多光谱图像语义分割方法。

技术介绍

[0002]图像的语义分割一直是计算机视觉领域的研究重点,语义分割是对图像中的每一个像素进行分类,目前广泛应用于医学图像、无人驾驶与地理图像等。最早语义分割使用一些非深度学习的传统方法,但是分类器需要人工设计,而且如果分割类别很多会造成复杂的计算。随着深度学习的发展让语义分割领域有了重大突破,使用卷积神经网络对图像进行语义分割在准确率和效率上都超过了传统方法。
[0003]目前,UNet模型是深度学习领域用于语义分割的经典模型。UNet模型基于FCN(全卷积神经网络)改进与延伸,保留了FCN利用卷积层、池化层对图像进行特征提取的操作,UNet提出了跨层的跳跃连接的拼接融合操作。使用“U”型网络结构可以同时获取上下文信息和位置信息。
[0004]普通彩色光学图像是一个三通道的图像,只包含红、绿、蓝三波段的信息。多光谱图像则是由多通道组成的图像,一般由几个到十几个通道图像组成。多光谱图像的通道更多也更窄,每个通道采集其中心波张及其附近一个小范围的波段对应的信息。通常多光谱图像的空间分辨率较低,光谱分辨率较高。通俗得解释为多光谱图像包含更多得信息但会比较“模糊”。
[0005]尽管多光谱图像具有相当的优势,但目前对于多光谱图像的语义分割,还没有一种普适性的方法。将多光谱图像的所有通道直接融合为一张图像输入普通光学图像的语义分割模型中,这种方法效率不高且分割精度较低。可见,上述问题制约了深度学习的语义分割模型在多光谱图像分类方面的应用。

技术实现思路

[0006]本专利技术要解决的技术问题是针对多光谱图像语义分割算法普适性不高且精度低等问题,提出了一种多编码器融合的多光谱图像语义分割方法,既能运用于不同通道数的多光谱图像,又能提高分割精度。
[0007]本专利技术针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器

单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
[0008]针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器

单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
[0009]一种多编码器融合的多光谱图像语义分割方法包括以下步骤:
[0010]步骤1、建立多光谱语义分割训练数据集:
[0011]多光谱图像采集:使用多光谱相机对目标的环境数据信息进行采集,将采集到的多光谱图像的红绿蓝三通道进行组合并保存;
[0012]人工标注数据集:为了进行深度学习模型的训练,人工对(1)产生的三通道融合图像进行人工标注;
[0013]步骤2、构建多光谱多编码器语义分割模型:
[0014]针对多光谱图像的特点,针对N通道的多光谱图像,构建(N

2)个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入各多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1
×
1卷积和Softmax激活函数输出语义分割结果。
[0015]每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3
×
3的卷积核,所述激活函数采用ReLU函数,重复n次。每层编码器之间使用最大池化进行连接。RGB编码器除了卷积核数量是多光谱编码器的三倍其余参数和结构一致。
[0016]每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3
×
3的卷积核,所述激活函数采用ReLU函数,重复n次。最后一层解码器后使用卷积核大小1
×
1的卷积核,激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
[0017]步骤3、训练多光谱语义分割模型:
[0018]将步骤1生成的多光谱语义分割训练数据集输入步骤2构建的深度学习模型中,进行端到端的训练,得到训练好的网络模型和权重。
[0019]本专利技术采用以上技术方案与现有技术相比,具有以下有益效果:
[0020]1.将多光谱图像的可见光三通道进行融合,提高了空间分辨率,而且有益于有人标注;
[0021]2.提出了一种多编码器

单解码器的深度学习模型,融合各通道的特征,能够对不同通道数的多光谱图像进行端到端的语义分割;
[0022]3.在RGB编码器和解码器之间使用了跳跃连接,提高了多光谱图像语义分割的精度。
附图说明
[0023]图1是本专利技术多编码器融合的多光谱图像语义分割模型示意图。
[0024]图2为多光谱测试集语义分割效果对比图。
具体实施方式
[0025]下面结合附图对本专利技术的技术方案做进一步的详细说明:
[0026]本专利技术可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本专利技术的范围。
[0027]本专利技术的实验是在windows10环境下进行,基于tensorflow开源深度框架并使用NVDIA GTX 1050ti显卡加速。模型训练使用Adam优化器,初始学习率为0.0003。
[0028]在这一部分,我们进行了对比实验,以探究我们提出的方法的优势,具体包括以下步骤:
[0029]步骤1,获取数据集,本次采用的数据集来自Gaofen Image Dataset(GID)。将数据集中的红、绿、蓝三通道图像融合为RGB图像。并将图像剪裁为5000张像素256
×
256大小的图像,并按6:2:2的比例分配为训练集、验证集和测试集。
[0030]步骤2,基于tensorflow开源深度框架构建深度学习网络模型。
[0031]步骤2.1,构建UNet网络模型;
[0032]步骤2.2,构建本专利技术提出的网络模型,并保持网络参数一致。其网络模型结果如图1所示。
[0033]针对GID数据集四通道的多光谱图像,构建两个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1
×
1卷积和So本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多编码器融合的多光谱图像语义分割方法,其特征在于,包括以下步骤:S1:采集多光谱图像数据,对多光谱图像进行预处理,制作相应的数据训练集;S2:建立卷积神经网络模型,所述的卷积神经网络包括一个RGB编码器、多个多光谱编码器和一个解码器;S3:使用所述数据训练集对所述卷积神经网络模型进行训练,生成已训练完成的卷积神经网络模型;S4:将多光谱图像输入步骤S3中训练完成的模型,得到语义分割结果。2.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于:所述S1具体包括,采集多光谱图像数据利用多光谱相机采集多光谱图像数据,将采集到的多光谱图像的红色、绿色和蓝色通道图像在深度维度上进行融合得到类普通光学图像的RGB图像,其余多光谱通道图像不变,人工对RGB图像进行标注。3.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S2具体包括:建立卷积神经网络模型,其中包括一个RGB编码器、多个多光谱编码器和一个解码器;所述编码器和解码器都为5层;每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3
×
3的卷积核,所述激活函数采用ReLU函数,重复n次,每层编码器之间使用最大池化进行连接;其中RGB编码器对输入的RGB图像进行编码,多个多光谱编码器对剩余的...

【专利技术属性】
技术研发人员:张淇婷商智高徐帆林泽彬
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1