当前位置: 首页 > 专利查询>湘潭大学专利>正文

基于深度学习的并行多尺度注意力机制语义分割方法及装置制造方法及图纸

技术编号:27062971 阅读:61 留言:0更新日期:2021-01-15 14:43
本发明专利技术公开了一种基于深度学习的并行多尺度注意力机制语义分割方法,首先对图像数据集进行预处理,提高模型的分割精度及其鲁棒性。以对第五层卷积层进行调整后的ResNet‑50为基础,再通过接在基网络的顶部的并行多尺度注意力模块用来聚合多尺度语义信息。最后通过双线性上采样恢复图像尺寸。本发明专利技术在原来每个并行的五个大小不同的卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制,增强五个并行膨胀卷积得到的特征图中的重要语义信息,抑制次要语义信息。

【技术实现步骤摘要】
基于深度学习的并行多尺度注意力机制语义分割方法及装置
本专利技术属于深度学习及计算机视觉领域,具体涉及一种基于深度学习的并行多尺度注意力机制语义分割方法及装置。
技术介绍
语义分割是一个基础且具有挑战性的任务,其目的就是需要预测每个像素的类别,即需要学习物体轮廓、物体位置和物体类别的高层语义信息和局部位置信息。作为计算机视觉最基本的任务之一,语义分割已经在自动驾驶、医学诊断、视频编辑、目标检测以及航空图像分析等领域得到了广泛的应用。近年来,随着深度卷积神经网络的发展,相较于随机森林等传统的机器学习方法,深度卷积神经网络具有更为强大的特征提取能力。尤其是全卷积网络FCN的出现,使语义分割实现了端到端的预测。随后语义分割的发展主要围绕如何获取更多的上下文信息和如何提升分辨率两个方面做改进。一般来说网络越深感受野越大,但是实际网络中的感受野远小于理论上的感受野,这使得网络无法有效的融合全局特征信息。虽然全卷积网络FCN实现了语义分割领域端到端预测,但是FCN网络缺乏更大范围的捕获上下特征,而这些信息对提高语义分割精度是有帮助的。为了聚合更多的上下特征,文献“RethinkingAtrousConvolutionforSemanticImageSegmentation”提出了空间金字塔池化ASPP模型用来融合不同区域的上下文特征。而虽然ASPP利用几个不同空洞率的卷积核能有效地捕获多尺度信息,但是在多尺度信息聚合阶段没有考虑到不同感受野捕获的特征之间的差异。
技术实现思路
针对ASPP模型现有技术的缺陷,本专利技术的目的在于通过设计EDS模块,希望能建立ASPP中多尺度特征图之间的相互依赖关系,通过学习的方式获取不同尺度信息的重要程度。本专利技术提出的并行多尺度注意力模块能够在捕获多尺度信息的同时,增强重要特征信息的表达并抑制次要信息。为了实现上述技术目的,本专利技术的技术方案是,一种基于深度学习的并行多尺度注意力机制语义分割方法,包括以下步骤:步骤1:对训练集中的图像进行预处理;步骤2:基于预处理后的图像对图像处理模型进行训练,其中图像处理模型是基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1;图像在由ResNet-50网络处理后再聚合多尺度语义信息,最后通过双线性上采样恢复图像尺寸,得到预测图;步骤3:将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图,同时使用平均交并比作为模型的评估标准来对模型进行评估,并基于训练集中不同图像反复迭代来训练模型,在达到评估标准或最大迭代次数后完成训练;步骤3:训练完成后即得到图像处理模型,将需要处理的图像输入图像处理模型,得到分割结果。所述的方法,所述的步骤1中的预处理包括以下步骤:在0.5到1.5倍之间随机缩小或放大图像,并在缩小后进行相应填充,或在放大后进行相应裁剪,以使图像回复原尺寸;然后进行水平翻转,再通过高斯滤波对图像进行平滑处理。所述的方法,在图像缩小后进行相应填充时,是在缩小后的图像四周均匀填充灰度值为0的像素,直到图像恢复原尺寸;在放大后进行相应裁剪时,是将超过图像原尺寸大小的部分从图像四周均匀删除,直到图像恢复原尺寸。所述的方法,所述的步骤2中聚合多尺度语义信息处理过程为;首先由五个并行且大小不同的空洞卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征,从而得到五张不同的特征图,然后通过计算其中一张特征图U∈RH×W×C和V∈RH×W×5C之间的相似度即EDS模块操作,使U成为带有注意力的特征图的U′,即:U′=Feds(U,V)其中,U为提取出的五张特征图中的一张,V为将五张特征图以串联形式拼接后的特征图,R表示特征图的大小,H,W,C分别表示特征图的高度,宽度,通道数,Feds是EDS模块操作,U′是最终输出特征图;对每张特征图均执行同样的上述操作。所述的方法,所述的ASPP模块中五个并行且大小不同的空洞卷积核包括:1×1的卷积核,3×3膨胀率为6的空洞卷积核,3×3膨胀率为12的空洞卷积核,3×3膨胀率为18的空洞卷积核,全局平均池化卷积核。所述的方法,EDS模块操作包括以下步骤:对ASPP模块产生的五张特征图分别单独执行以下操作:首先将U顺着空间维度进行压缩,即将每个二维的特征通道利用全局平均池化将其变为一个实数,随后将输入至1x1的卷积,再进行BatchNormalization和ReLU操作,得到特征图X∈R1×1×C:其中AvgPool,f,σ分别代表平均池化,卷积,BatchNormalization和ReLU操作;然后将特征图V先进行1x1的卷积操作,随后进行如处理U的相同操作,最后得到特征图Y∈R1×1×C:然后计算特征图向量X=[x1,x2…xC]和Y=[y1,y2…yC]的相似度d(X,Y):其中xC表示特征图X在对应的第C个通道上的值,yC表示特征图Y在对应的第C个通道上的值;求倒数以将相似度d(X,Y)的范围限定在(0~1):然后将相似度特征值λ乘以原来的特征图U,得到带有注意力机制的特征图U′,U'=λ×U然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联形式进行拼接,再用1x1卷积将通道降为C,最后依次进行BatchNormalization、ReLU、Droupout(0.3)。所述的方法,所述的步骤2中双线性上采样包括以下步骤:将经过EDS模块处理后的特征图输入一个1x1的卷积得到一个具有k个通道的热图t,其中k为所要预测图像中的所需要识别分割的类别数,最后将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小,得到最终的预测图T={T1,T2,…,TK}。所述的方法,步骤3中所述的交叉熵损失函数L为:其中p(xi)是真实样本分布,q(xi)是预测得到的样本分布,q(xi)=hw,b(xi),hw,b表示图像处理模型的前向传播,w和b表示需要训练的图像处理模型的权重和偏置;new_w=existing_w-new_lr×gradient其中existing_w为当前图像处理模型的权重,new_lr为当前学习率,gradient为图像处理模型设置的梯度,new_w为经过一次反向传播算法后更新的权重。所述的方法,步骤3中所述的反向传播算法,是通过poly学习策略更新当前学习率new_lr,表达式为:new_lr=base_lr*(1-iter/maxiter)power其中new_lr为当前学习率,power为常量,base_lr为初始学习率,iter为当前迭代步数,maxiter为最大迭代步数。所述的方法,步骤3中所述的作为评估标准的平均交并比MeanIou为:本文档来自技高网...

【技术保护点】
1.一种基于深度学习的并行多尺度注意力机制语义分割方法,其特征在于,包括以下步骤:/n步骤1:对训练集中的图像进行预处理;/n步骤2:基于预处理后的图像对图像处理模型进行训练,其中图像处理模型是基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1;图像在由ResNet-50网络处理后再聚合多尺度语义信息,最后通过双线性上采样恢复图像尺寸,得到预测图;/n步骤3:将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图,同时使用平均交并比作为模型的评估标准来对模型进行评估,并基于训练集中不同图像反复迭代来训练模型,在达到评估标准或最大迭代次数后完成训练;/n步骤3:训练完成后即得到图像处理模型,将需要处理的图像输入图像处理模型,得到分割结果。/n

【技术特征摘要】
1.一种基于深度学习的并行多尺度注意力机制语义分割方法,其特征在于,包括以下步骤:
步骤1:对训练集中的图像进行预处理;
步骤2:基于预处理后的图像对图像处理模型进行训练,其中图像处理模型是基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1;图像在由ResNet-50网络处理后再聚合多尺度语义信息,最后通过双线性上采样恢复图像尺寸,得到预测图;
步骤3:将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图,同时使用平均交并比作为模型的评估标准来对模型进行评估,并基于训练集中不同图像反复迭代来训练模型,在达到评估标准或最大迭代次数后完成训练;
步骤3:训练完成后即得到图像处理模型,将需要处理的图像输入图像处理模型,得到分割结果。


2.根据权利要求1所述的方法,其特征在于,所述的步骤1中的预处理包括以下步骤:
在0.5到1.5倍之间随机缩小或放大图像,并在缩小后进行相应填充,或在放大后进行相应裁剪,以使图像回复原尺寸;然后进行水平翻转,再通过高斯滤波对图像进行平滑处理。


3.根据权利要求1所述的方法,其特征在于,所述的步骤2中聚合多尺度语义信息处理过程为;
首先由五个并行且大小不同的卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征,从而得到五张不同的特征图,然后通过计算其中一张特征图U∈RH×W×C和V∈RH×W×5C之间的相似度即EDS模块操作,使U成为带有注意力的特征图的U′,即:
U′=Feds(U,V)
其中,U为提取出的五张特征图中的一张,V为将五张特征图以串联形式拼接后的特征图,R表示特征图的大小,H,W,C分别表示特征图的高度,宽度,通道数,Feds是EDS模块操作,U′是最终输出特征图;对每张特征图均执行同样的上述操作。


4.根据权利要求3所述的方法,其特征在于,所述的ASPP模块中五个并行且大小不同的卷积核包括:1×1的卷积核,3×3膨胀率为6的空洞卷积核,3×3膨胀率为12的空洞卷积核,3×3膨胀率为18的空洞卷积核,全局平均池化卷积核。


5.根据权利要求3所述的方法,其特征在于,EDS模块操作包括以下步骤:
对ASPP模块产生的五张特征图分别单独执行以下操作:
首先将U顺着空间维度进行压缩,即将每个二维的特征通道利用全局平均池化将其变为一个实数,随后将输入至1x1的卷积,再进行BatchNormalization和ReLU操作,得到特征图X∈R1×1×C:



其中AvgPool,f,σ分别代表平均池化,卷积,BatchNormalization和ReLU操作;
然后将特征图V先进行1x1的卷积操作,随后进行如处理U的相同操作,最后得到特征图Y∈R1×1×C:



然后计算特征图向量X=[x1,x2…xC]和Y=[y1,y2…yC]的相似度d(X,Y):



其中xC表示特征图X在对应的第C个通道上的值,yC表示特征图Y在对应的第C个通道上的值;<...

【专利技术属性】
技术研发人员:周彦周振王冬丽
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1