基于深度学习的并行多尺度注意力机制语义分割方法及装置制造方法及图纸

技术编号：27062971 阅读：61 留言：0更新日期：2021-01-15 14:43

本发明专利技术公开了一种基于深度学习的并行多尺度注意力机制语义分割方法，首先对图像数据集进行预处理，提高模型的分割精度及其鲁棒性。以对第五层卷积层进行调整后的ResNet‑50为基础，再通过接在基网络的顶部的并行多尺度注意力模块用来聚合多尺度语义信息。最后通过双线性上采样恢复图像尺寸。本发明专利技术在原来每个并行的五个大小不同的卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制，增强五个并行膨胀卷积得到的特征图中的重要语义信息，抑制次要语义信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的并行多尺度注意力机制语义分割方法及装置
本专利技术属于深度学习及计算机视觉领域，具体涉及一种基于深度学习的并行多尺度注意力机制语义分割方法及装置。
技术介绍
语义分割是一个基础且具有挑战性的任务，其目的就是需要预测每个像素的类别，即需要学习物体轮廓、物体位置和物体类别的高层语义信息和局部位置信息。作为计算机视觉最基本的任务之一，语义分割已经在自动驾驶、医学诊断、视频编辑、目标检测以及航空图像分析等领域得到了广泛的应用。近年来，随着深度卷积神经网络的发展，相较于随机森林等传统的机器学习方法，深度卷积神经网络具有更为强大的特征提取能力。尤其是全卷积网络FCN的出现，使语义分割实现了端到端的预测。随后语义分割的发展主要围绕如何获取更多的上下文信息和如何提升分辨率两个方面做改进。一般来说网络越深感受野越大，但是实际网络中的感受野远小于理论上的感受野，这使得网络无法有效的融合全局特征信息。虽然全卷积网络FCN实现了语义分割领域端到端预测，但是FCN网络缺乏更大范围的捕获上下特征，而这些信息对提高语义分割精度是有帮助的。为了聚合更多的上下特征，文献“RethinkingAtrousConvolutionforSemanticImageSegmentation”提出了空间金字塔池化ASPP模型用来融合不同区域的上下文特征。而虽然ASPP利用几个不同空洞率的卷积核能有效地捕获多尺度信息，但是在多尺度信息聚合阶段没有考虑到不同感受野捕获的特征之间的差异。
技术实现思路
针对ASPP模型现有技术的缺陷，...

【技术保护点】
1.一种基于深度学习的并行多尺度注意力机制语义分割方法，其特征在于，包括以下步骤：/n步骤1：对训练集中的图像进行预处理；/n步骤2：基于预处理后的图像对图像处理模型进行训练，其中图像处理模型是基于ResNet-50网络搭建，且第五层的卷积层的空洞率为2，步长为1；图像在由ResNet-50网络处理后再聚合多尺度语义信息，最后通过双线性上采样恢复图像尺寸，得到预测图；/n步骤3：将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中，通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图，同时使用平均交并比作为模型的评估标准来对模型进行评估，并基于训练集中不同图像反复迭代来训练模型，在达到评估标准或最大迭代次数后完成训练；/n步骤3：训练完成后即得到图像处理模型，将需要处理的图像输入图像处理模型，得到分割结果。/n

【技术特征摘要】
1.一种基于深度学习的并行多尺度注意力机制语义分割方法，其特征在于，包括以下步骤：
步骤1：对训练集中的图像进行预处理；
步骤2：基于预处理后的图像对图像处理模型进行训练，其中图像处理模型是基于ResNet-50网络搭建，且第五层的卷积层的空洞率为2，步长为1；图像在由ResNet-50网络处理后再聚合多尺度语义信息，最后通过双线性上采样恢复图像尺寸，得到预测图；
步骤3：将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中，通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图，同时使用平均交并比作为模型的评估标准来对模型进行评估，并基于训练集中不同图像反复迭代来训练模型，在达到评估标准或最大迭代次数后完成训练；
步骤3：训练完成后即得到图像处理模型，将需要处理的图像输入图像处理模型，得到分割结果。

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中的预处理包括以下步骤：
在0.5到1.5倍之间随机缩小或放大图像，并在缩小后进行相应填充，或在放大后进行相应裁剪，以使图像回复原尺寸；然后进行水平翻转，再通过高斯滤波对图像进行平滑处理。

3.根据权利要求1所述的方法，其特征在于，所述的步骤2中聚合多尺度语义信息处理过程为；
首先由五个并行且大小不同的卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征，从而得到五张不同的特征图，然后通过计算其中一张特征图U∈RH×W×C和V∈RH×W×5C之间的相似度即EDS模块操作，使U成为带有注意力的特征图的U′，即：
U′＝Feds(U,V)
其中，U为提取出的五张特征图中的一张，V为将五张特征图以串联形式拼接后的特征图，R表示特征图的大小，H，W，C分别表示特征图的高度，宽度，通道数，Feds是EDS模块操作，U′是最终输出特征图；对每张特征图均执行同样的上述操作。

4.根据权利要求3所述的方法，其特征在于，所述的ASPP模块中五个并行且大小不同的卷积核包括：1×1的卷积核，3×3膨胀率为6的空洞卷积核，3×3膨胀率为12的空洞卷积核，3×3膨胀率为18的空洞卷积核，全局平均池化卷积核。

5.根据权利要求3所述的方法，其特征在于，EDS模块操作包括以下步骤：
对ASPP模块产生的五张特征图分别单独执行以下操作：
首先将U顺着空间维度进行压缩，即将每个二维的特征通道利用全局平均池化将其变为一个实数，随后将输入至1x1的卷积，再进行BatchNormalization和ReLU操作，得到特征图X∈R1×1×C：

其中AvgPool，f，σ分别代表平均池化，卷积，BatchNormalization和ReLU操作；
然后将特征图V先进行1x1的卷积操作，随后进行如处理U的相同操作，最后得到特征图Y∈R1×1×C：

然后计算特征图向量X＝[x1,x2…xC]和Y＝[y1,y2…yC]的相似度d(X,Y)：

其中xC表示特征图X在对应的第C个通道上的值，yC表示特征图Y在对应的第C个通道上的值；<...

【专利技术属性】
技术研发人员：周彦，周振，王冬丽，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人