一种基于链式残差与注意力机制的自适应语义分割方法技术

技术编号:30530080 阅读:55 留言:0更新日期:2021-10-30 12:27
本发明专利技术公开了一种基于链式残差与注意力机制的自适应语义分割网络方法,该方法采用链式残差与注意力机制模块构建解码器网络进行训练。在数据预处理阶段,对原始图片进行数据增强,增强样本丰富性。在编码器模块,采用残差模块构成的特征网络处理训练数据,得到尺度不断减小的多层卷积特征。在解码器模块,采用链式残差网络模块使得网络具有多尺度的感受野,有效改善多类别语义分割中的尺度问题;采用通道注意力机制模块使得网络能够自适应地调整特征通道的权值,提高网络的特征判别和选择能力。在损失函数方面,引入focal loss损失函数加强网络对难分样本的学习,改善样本不均衡问题。本发明专利技术方法增强了复杂环境下语义分割算法的稳健性,提高了分割精度。提高了分割精度。提高了分割精度。

【技术实现步骤摘要】
一种基于链式残差与注意力机制的自适应语义分割方法


[0001]本专利技术涉及计算机视觉、模式识别、深度学习等领域,具体是一种对图像中每一个像素点进行分类从而实现不规则的目标检测以及场景理解的方法。

技术介绍

[0002]随着计算机技术的高速发展与人工智能时代的到来,基于图像和视频理解世界的计算机视觉技术正影响着我们每个人的生活,在自动驾驶、智能监控、虚拟现实等领域有着广泛的应用前景。语义分割作为计算机视觉领域中重要的一项课题,具有重要的研究意义和应用价值。然而,在图像中精确地分割不同种类的物体存在一些难点,比如:不同分割对象的尺度差异大,分割样本数量不均衡等。传统的分割算法由于分割精度问题不能很好地满足应用需要,而基于深度神经网络的分割算法较少对这些问题针对性地提出相应的解决方案。因此,研究设计一种针对性的自适应语义分割网络有着很实际的研究意义和应用价值。
[0003]近年来国内外学者在语义分割领域做了相应的研究和贡献,主要分为两类方法:1)基于传统方法的语义分割,2)基于深度神经网络的语义分割。基于传统方法的语义分割以自底而上(Bottom-up)的算法架构为代表,首先利用聚类、梯度或其他算法理论对原图像进行一次过分割,得到超像素区域,然后通过手工设计特征的方式提取超像素的区域特征,最后将特征送入预先训练的分类器中判断该区域的类别。但手工设计的特征通常表达能力不足,不能做到完全自适应分割,难以应对复杂任务或场景,且处理过程相较繁琐。近年来,随着计算机软硬件技术的高速发展,以深度卷积神经网络为理论基础的深度学习方法为语义分割开辟了新的研究方向。此类方法以U-Net、DeepLab、PSPNet等语义分割网络模型为代表,其特点在于编码器-解码器的网络架构。图像先经过编码器网络逐级池化生成语义特征丰富的小尺寸特征图,再通过解码器网络以反卷积或反池化的形式逐级放大分辨率至原图尺寸大小。由于在池化环节特征图会不可避免地丢失部分信息,因此在大多数网络中会采用跳跃连接的方式将编码器中的高分辨率特征图引入到解码器中。相比于传统方法,深度学习方法的分割精度更高,但对于较为复杂的场景,现有的语义分割网络的分割性能还有待进一步的提高。
[0004]在实际的分割场景中,图像中的目标类别可能多达几十种,并且不同目标的尺寸、形状差异可能很大,传统的语义分割网络在应对诸多分割对象时难以兼顾,导致分割精度下降。以室内场景语义分割任务为例,主要存在以下问题:1)多样性问题,场景中包含桌椅、壁画、家具、行人等数十种不同类别的对象;2)尺度问题,例如场景中同时包含以墙面和地板为代表的大尺度目标,以及水杯和盘子等诸多小尺度目标;3)样本不均衡问题,不同类别的对象数量不均衡,分割难度不均衡。如何针对这些问题设计更有效的语义分割网络是提升分割精度的关键。

技术实现思路

[0005]本专利技术的目的,在于针对传统语义分割网络在多分类情况下部分难分样本的分割精度不佳的问题,提出一种基于链式残差与注意力机制的自适应语义分割网络。算法根据语义分割任务的特点,通过链式残差结构实现不同尺度特征的自适应提取,利用注意力机制实现不同类型特征的自适应权重调整,引入focal loss损失函数实现不同分割难度样本的损失自适应回归,从而改善网络对复杂场景的分割效果,具有更高的分割精度和稳健性。这对于语义分割的研究与开发均具有重要的理论和实际意义。
[0006]为解决现有技术中存在的问题,本专利技术提供一种基于链式残差与注意力机制的自适应语义分割网络,实现复杂场景下的多类别语义分割,其技术方案如下:
[0007]一种基于链式残差与注意力机制的自适应语义分割网络,包括如下具体步骤:
[0008]步骤1:图像数据预处理,采集相应的待分割图像,进行增强预处理构建语义分割数据集,划分训练集和测试集;
[0009]步骤2:编码器设计,语义分割网络采用编码器+解码器架构,编码器主要由残差模块构成,用于处理输入数据得到尺度不断减小的多层卷积特征;
[0010]步骤3:解码器设计;采用注意力机制模块和基于空洞卷积的链式残差模块构建解码器;
[0011]步骤4:计算网络的损失函数,采用新的适用于语义分割的损失函数focal loss计算网络前向传播的损失;
[0012]步骤5:网络训练,根据预设的优化学习方法和相应超参数,训练上述的语义分割网络;
[0013]步骤6:输出分割结果。从测试集中选择测试图片,输入训练好的语义分割网络,生成分割结果。
[0014]作为本专利技术的一种优选方案,所述步骤1中数据预处理的方法主要有图片缩放、翻转、旋转、抖动、平移以及归一化等操作。
[0015]作为本专利技术的一种优选方案,所述步骤2中的编码器采用SE-ResNet-50。
[0016]作为本专利技术的一种优选方案,所述步骤3中的注意力机制模块,对于给定的输入特征图,首先经过全局最大池化生成与原特征通道数相同大小的权重向量,然后通过通道数为原特征通道数1/16的卷积层将权重向量压缩,再通过通道数为原特征通道数的卷积层将权重向量拉伸为原来的长度,最终将拉伸后的权重向量乘到原来的卷积特征中。
[0017]作为本专利技术的一种优选方案,所述步骤3中的链式残差模块,输入特征图会在其主路上直接经过一个ReLU层,在其支路上先依次经过一个感受野较小的空洞卷积和一个普通卷积,再经过另一个支路通过一个感受野较大的空洞卷积和普通卷积,最后不同感受野的支路与主路融合,得到多尺度特征的特征图。
[0018]作为本专利技术的一种优选方案,所述步骤4中的损失函数采用focal loss损失函数,其形式为:
[0019]L(p
t
)=-α(1-p)
γ
log(p)
[0020][0021]其中,α和γ表示权重系数,p表示网络预测的第x个像素属于某类别的概率。
[0022]作为本专利技术的一种优选方案,所述步骤5中优化学习方法为SGD优化器,所述相关的超参数包括学习率、batch_size、学习率衰减。
[0023]有益效果
[0024]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:
[0025]1,本专利技术通过在解码器网络采用链式残差网络模块,使得网络具有多尺度的感受野,有效改善多类别语义分割中的尺度问题。
[0026]2,本专利技术通过在解码器网络采用通道注意力机制模块,使得网络能够自适应地调整特征通道的权值,有效加强网络学习的鲁棒性,提高网络的特征判别和选择能力,从而缓解由于无关特征的干扰问题。
[0027]3,本专利技术通过采用focal loss损失函数,使得网络能够加强对难分样本的学习,改善样本数量不均衡问题并提高难分样本的分割精度。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于链式残差与注意力机制的自适应语义分割网络方法,包括如下具体步骤:步骤1:图像数据预处理,采集相应的待分割图像,进行增强预处理构建语义分割数据集,划分训练集和测试集;步骤2:编码器设计,语义分割网络采用编码器+解码器架构,编码器主要由残差模块构成,用于处理输入数据得到尺度不断减小的多层卷积特征;步骤3:解码器设计;采用注意力机制模块和基于空洞卷积的链式残差模块构建解码器;步骤4:计算网络的损失函数,采用新的适用于语义分割的损失函数focal loss计算网络前向传播的损失;步骤5:网络训练,根据预设的优化学习方法和相应超参数,训练上述的语义分割网络;步骤6:输出分割结果。从测试集中选择测试图片,输入训练好的语义分割网络,生成分割结果。2.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法,其特征在于,所述步骤1中数据预处理的方法主要有图片缩放、翻转、旋转、抖动、平移以及归一化等操作。3.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法,其特征在于,步骤2所述的编码器采用SE-ResNet-50。4.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法,其特征在于,所述步骤3中的注意力机制模块,对于给定...

【专利技术属性】
技术研发人员:吴子涵周大可张志伟
申请(专利权)人:上海舜瞳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1