当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于轻量级全卷积神经网络的实时图像语义分割方法技术

技术编号:21833920 阅读:34 留言:0更新日期:2019-08-10 18:28
本发明专利技术公开了一种基于轻量级全卷积神经网络的实时图像语义分割方法,包括以下步骤:1)使用轻量级神经网络的设计元素构建全卷积神经网络:网络共包含特征拓增阶段、特征处理阶段、综合预测阶段三个阶段,其中特征处理阶段使用多感受野特征融合结构、多尺寸卷积融合结构、感受野扩增结构;2)训练阶段:利用语义分割数据集训练网络,使用交叉熵函数作为损失函数,使用Adam算法作为参数优化算法,在过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到语义分割结果。本发明专利技术在控制模型规模的同时,通过调整网络结构,适配语义分割任务,获得了适合在移动端平台运行的,高精度的实时语义分割方法。

A Real-time Image Semantic Segmentation Method Based on Lightweight Full Convolution Neural Network

【技术实现步骤摘要】
一种基于轻量级全卷积神经网络的实时图像语义分割方法
本专利技术属于计算机软件
,涉及图像语义分割技术,具体为一种基于轻量级全卷积神经网络的实时图像语义分割方法。
技术介绍
图像语义分割是一项密集型预测分类任务,需要预测输入图像的每一个像素的分类标签,常被用作场景识别、自动避障等任务的先导处理过程,是计算机视觉领域的热门研究课题。自2012年AlexNet在ImageNet竞赛中大放光彩,深度学习被广泛应用于计算机视觉领域。目前,基于深度学习的方法也占据了语义分割领域的半壁江山,其中大部分采用全卷积神经网络,并逐渐形成先编码后解码的常用结构。在编码阶段,通过卷积操作提取深度特征,通过池化操作或者带步长的卷积操作缩减特征图的尺寸;在解码阶段,通过卷积操作进一步分析特征,使用反卷积层等上采用操作逐渐恢复特征图的尺寸。由于自动驾驶等功能需要,语义分割也常被用于无人机等移动端平台,但是一方面移动端平台内存和算力有限,另一方面自动驾驶等实际任务需要,需要语义分割实时高效的进行,而基于深度学习的前沿方法模型规模较大,运行时需要移动端硬件无法提供的内存和算力等计算资源。目前,存在一些采用精简神经网络作为主干网络用于语义分割的方法,但是这类方法通常只是沿用对象分类的网络结构,没有对语义分割这一具体任务做出网络结构的适配和调整,故而在分类精度方面差强人意。
技术实现思路
本专利技术要解决的问题是:现有的语义分割方法在硬件计算能力以及实时性能的双重要求下,难以在移动端平台运行,或因为硬件条件限制,难以在移动端平台运行,或因为方法缺陷,在移动端平台运行时,分类精度较差。本专利技术的技术方案为:一种基于轻量级全卷积神经网络的实时图像语义分割方法,采用轻量级网络的设计构建网络,并且调整网络适配至语义分割任务,包括以下步骤:1)使用轻量级神经网络的设计元素构建全卷积神经网络:全卷积神经网络共包含特征拓增阶段、特征处理阶段和综合预测阶段三个阶段,特征拓增阶段用于提前池化,快速减小特征图尺寸,提升特征通道数,特征处理阶段用于提取特征信息,加深网络深度,扩大卷积感受野,得到丰富的特征表示,综合预测阶段根据特征分类将尺寸恢复为原图尺寸,网络中的卷积层均经过批标准化处理,以PReLU作为激活函数,特征处理阶段使用多感受野特征融合结构、多尺寸卷积融合结构和感受野扩增结构;2)训练阶段:利用语义分割数据集训练构建的全卷积神经网络,使用交叉熵函数作为损失函数,使用Adam算法作为参数优化算法,在训练过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到语义分割结果。作为优选方式,步骤1)中,特征拓增阶段分为两路并行提取特征,一路采用两个串联的提取处理模块,每个提取处理模块均依次采用常规卷积层和两层深度可分离式卷积层,其中常规卷积层使用3*3的卷积核,步长为2,深度可分离式卷积层采用3*3的卷积核,步长为1;另一路借助池化和卷积结合的方式提取特征;随后将两路特征拼接,再依次通过常规卷积层、两个深度可分离式卷积层和一个步长为2的卷积层,输出进入特征处理阶段;特征处理阶段,输入特征共有256个通道,尺寸为原图尺寸的1/8,特征处理阶段共分为两支路:一支路,首先采用卷积核尺寸为1*1、步长为1的卷积层将通道数缩小至192,得到特征图集合F1,然后依次通过μ个融合模块处理,每个融合模块由多尺寸卷积融合结构和多感受野特征融合结构串联组成,得到特征图集合F2,通过相加操作融合F1和F2获得特征图集合F3,随后以F3为输入,依次通过λ个感受野扩增结构,得到特征图输出F4;另一支路采用卷积核为1*1的常规卷积层处理,得到64通道的特征图集合R1,将R1和前一支路的输出F4拼接获得256通道的输出特征;综合预测阶段,采用1*1的卷积实现特征处理阶段输出特征中256通道之间的交流,随后使用3*3的卷积层得到小尺寸的分类结果,其中卷积层的输出通道数等于数据集的分类标签数,尺寸为原图大小的1/8,最后使用上采样层,经过线性插值将尺寸扩大到原图尺寸。进一步的,步骤1)所述的多感受野特征融合结构,由两个串联的特征处理模块A组成,所述特征处理模块A由第一卷积层、窄感受野卷积层、宽感受野卷积层和特征融合卷积层依次连接构成,每个卷积层中均依次经过卷积操作、批标准化和PReLU激活函数,第一卷积层采用1*1的卷积核、输出通道数为输入通道数的1/2,获得特征图集合记为P1,窄感受野卷积层、宽感受野卷积层均以P1作为输入,输出通道数等于输入通道数,采用深度可分离式卷积操作,窄感受野卷积层使用3*3的卷积核,宽感受野卷积层采用3*3的膨胀卷积核,膨胀系数为2,随后对窄感受野卷积层和宽感受野卷积层的输出经过特征图的拼接,将拼接的特征输入到特征融合卷积层,该层卷积层使用1*1的卷积核,输出通道数等于输入通道数;经过两个特征处理模块A的处理,得到特征图集合P2,最后将本结构的输入与P2相加,得到输出特征图集合。进一步的,步骤1)所述的多尺寸卷积融合结构,由两个串联的特征处理模块B组成,所述特征处理模块B由第一卷积层、多尺寸卷积层和特征融合卷积层依次连接构成,其中多尺寸卷积层接受第一卷积层的输出,分三路做深度可分离式卷积操作,分别使用1*1、3*3、5*5的卷积核,随后三路输出经过拼接输入到特征融合卷积层,该层卷积层使用1*1的卷积核;最后将本结构的输入与两个特征处理模块B的输出相加获得输出特征图集合。进一步的,步骤1)所述的感受野扩增结构,由第一卷积层、感受野扩增层和特征融合卷积层依次连接构成,感受野扩增层接受第一卷积层的输出作为输入,分两路做深度可分离式卷积操作,第一路依次使用1*7和7*1的卷积核做深度可分离式卷积操作,第二路连续使用两次第一路采用的卷积操作过程,随后将两路获得特征图拼接输入到特征融合卷积层,输出获得输出特征图集合。本专利技术与现有技术相比有如下优点本专利技术使用轻量级网络的设计,使得模型规模小于1M,极大地减小了运行时的内存占用和计算数据量。为了适配语义分割任务,提出了三种结构,能更好地利用上下文信息用于分类预测,最终获得精度更高的语义分割结果。附图说明图1为本专利技术的方法流程示意图。图2是本专利技术的多感受野特征融合结构。图3是本专利技术的多尺寸卷积融合结构。图4是本专利技术的感受野扩增结构。图5是本专利技术的特征处理阶段和综合预测阶段的网络处理结构示意图。图6展示采用本专利技术在CamVid数据集上的语义分割实例,(a)表示原图,(b)表示语义分割的结果。图7展示采用本专利技术在Cityscapes数据集上的语义分割实例,(a)表示原图,(b)表示语义分割的结果。具体实施方式本专利技术提出了一种基于轻量级全卷积神经网络的实时图像语义分割方法。提出了三个适配语义分割任务的网络模块结构,经过CamVid和Cityscapes两个数据集训练和测试,不仅模型规模得到控制,且在实时的预测速度下,获得了高精度的语义分割结果。本专利技术实施步骤具体如下:1)使用轻量级神经网络的设计元素构建全卷积神经网络,轻量级网络模型如MobileNetV2、ShuffleNetV2等。本专利技术设计的网络共包含特征拓增阶段、特征处理阶段、综合预测阶段三个阶段,如图1所示。特征拓增阶段分为两路并行提取特征。一路采用两个串联本文档来自技高网...

【技术保护点】
1.一种基于轻量级全卷积网络的实时图像语义分割方法,其特征是包括以下步骤:1)使用轻量级神经网络的设计元素构建全卷积神经网络:全卷积神经网络共包含特征拓增阶段、特征处理阶段和综合预测阶段三个阶段,特征拓增阶段用于提前池化,快速减小特征图尺寸,提升特征通道数,特征处理阶段用于提取特征信息,加深网络深度,扩大卷积感受野,得到丰富的特征表示,综合预测阶段根据特征进行分类预测,并将特征图尺寸恢复至原图尺寸,网络中的卷积层均经过批标准化处理,以PReLU作为激活函数,特征处理阶段使用多感受野特征融合结构、多尺寸卷积融合结构和感受野扩增结构;2)训练阶段:利用语义分割数据集训练构建的全卷积神经网络,使用交叉熵函数作为损失函数,使用Adam算法作为参数优化算法,在训练过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到语义分割结果。

【技术特征摘要】
1.一种基于轻量级全卷积网络的实时图像语义分割方法,其特征是包括以下步骤:1)使用轻量级神经网络的设计元素构建全卷积神经网络:全卷积神经网络共包含特征拓增阶段、特征处理阶段和综合预测阶段三个阶段,特征拓增阶段用于提前池化,快速减小特征图尺寸,提升特征通道数,特征处理阶段用于提取特征信息,加深网络深度,扩大卷积感受野,得到丰富的特征表示,综合预测阶段根据特征进行分类预测,并将特征图尺寸恢复至原图尺寸,网络中的卷积层均经过批标准化处理,以PReLU作为激活函数,特征处理阶段使用多感受野特征融合结构、多尺寸卷积融合结构和感受野扩增结构;2)训练阶段:利用语义分割数据集训练构建的全卷积神经网络,使用交叉熵函数作为损失函数,使用Adam算法作为参数优化算法,在训练过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到语义分割结果。2.根据权利要求1所述的一种基于轻量级全卷积网络的实时图像语义分割方法,其特征是步骤1)中,特征拓增阶段分为两路并行提取特征,一路采用两个串联的提取处理模块,每个提取处理模块均依次采用常规卷积层和两层深度可分离式卷积层,其中常规卷积层使用3*3的卷积核,步长为2,深度可分离式卷积层采用3*3的卷积核,步长为1;另一路借助池化和卷积结合的方式提取特征;随后将两路特征拼接,再依次通过常规卷积层、两个深度可分离式卷积层和一个步长为2的卷积层,输出进入特征处理阶段;特征处理阶段,输入特征共有256个通道,尺寸为原图尺寸的1/8,特征处理阶段共分为两支路:一支路,首先采用卷积核尺寸为1*1、步长为1的卷积层将通道数缩小至192,得到特征图集合F1,然后依次通过μ个融合模块处理,每个融合模块由多尺寸卷积融合结构和多感受野特征融合结构串联组成,得到特征图集合F2,通过相加操作融合F1和F2获得特征图集合F3,随后以F3为输入,依次通过λ个感受野扩增结构,得到特征图输出F4;另一支路采用卷积核为1*1的常规卷积层处理,得到64通道的特征图集合R1,将R1和前一支路的输出F4拼接获得256通道的输出特征;综合预测阶段,采用1*1的卷积实现特征处理阶段输出特征中256通道之间的交流,随后使用3*3的卷积...

【专利技术属性】
技术研发人员:武港山沈佳凯
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1