一种基于反向注意力模型的语义分割方法技术

技术编号：25691277 阅读：74 留言：0更新日期：2020-09-18 21:02

本发明专利技术涉及一种基于反向注意力模型的语义分割方法；其主要是先获取图像数据集，构建训练集和测试集；构建深度语义分割网络模型，所述深度语义分割网络模型包括基础网络模型和反向注意力模型；将基础网络输出的特征输入反向注意力模型计算注意视图，将该注意力视图分别逐步反作用于基础语义分割网络低层输出特征，并和基础网络输出特征及其上采样特征融合得到最终分割结果；该模型仅使用基础语义分割网络输出特征计算注意力视图，指导低层特征融入基础语义分割网络输出特征，从而抑制模型低层特征中的噪声，提升了语义分割模型的鲁棒性和分割精度；同时，为基础语义分割模型的高层输出特征增加基于Gumbel softmax的损失函数，以加快模型训练的速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于反向注意力模型的语义分割方法
本专利技术属于图像处理
，具体涉及一种基于反向注意力模型的语义分割方法。
技术介绍
近年来，深度学习得到了突飞猛进的发展，以卷积神经网络(CNN)为代表的深度学习模型再次点燃了沉寂一时的神经网络，掀起了深度学习在学术界和工业界的浪潮。早期的基于DNN的分割模型受限于输入图像大小必须固定，为解决该问题，伯克利大学的Long和Shelhamer等提出了用于图像语义分割的全卷积网络(FCN)，通过使用卷积代替全连接层，并使用反卷积和上采样等技术将网络输出的密集预测(densepredict)图映射到原始图像上，从而实现end-to-end的语义分割，而且DNN模型能够处理任意大小图像。增大感受野是获取图像语义信息的一个重要的因素，但多次下采样容易造成图像细节丢失和边界偏移等问题。在此基础上，DeeplabV2模型、DeeplabV3模型、DeeplabV3+模型、PSPNet模型和U-net模型等及其改进模型相继被提出，从模型架构、上采样策略、感受野大小等进行改进，尤其Deepl...

【技术保护点】
1.一种基于反向注意力模型的语义分割方法，其特征在于，包括以下步骤：/n(1)获取图像数据集，构建训练集和测试集；/n(2)构建深度语义分割网络模型，所述深度语义分割网络模型包括基础网络模型、反向注意力模型；/n所述基础网络模型包括依次连接的若干个卷积模块和ASPP输出模块，所述ASPP输出模块用于基础网络模型的输出特征的输出；/n所述反向注意力模型的处理过程为：/n1)将所述基础网络模型的输出特征经过卷积层得到降维后的输出特征，并输入注意力计算模型获取第一注意力视图，将所述降维后的输出特征与所述第一注意力视图进行点乘后，再与降维后的输出特征叠加，得到第一输出特征；/n2)对第一输出特征进行上...

【技术特征摘要】
1.一种基于反向注意力模型的语义分割方法，其特征在于，包括以下步骤：
(1)获取图像数据集，构建训练集和测试集；
(2)构建深度语义分割网络模型，所述深度语义分割网络模型包括基础网络模型、反向注意力模型；
所述基础网络模型包括依次连接的若干个卷积模块和ASPP输出模块，所述ASPP输出模块用于基础网络模型的输出特征的输出；
所述反向注意力模型的处理过程为：
1)将所述基础网络模型的输出特征经过卷积层得到降维后的输出特征，并输入注意力计算模型获取第一注意力视图，将所述降维后的输出特征与所述第一注意力视图进行点乘后，再与降维后的输出特征叠加，得到第一输出特征；
2)对第一输出特征进行上采样，获取至少两个不同尺度的特征，对每个尺度的特征计算注意力视图，并将获取的不同尺度的注意力视图分别与所述基础网络模型的特征图进行点乘，将点乘后的结果分别与对应尺度的特征进行叠加，获取不同尺度的输出特征图，将所述不同尺度的输出特征图与所述第一输出特征进行融合，得到输出结果；
(3)将训练集输入所述深度语义分割网络模型进行训练，获得训练好的深度语义分割网络模型；
(4)将测试集输入训练好的深度语义分割网络模型，获取图像分割结果。

2.根据权利要求1中所述的基于反向注意力模型的语义分割方法，其特征在于，所述深度语义分割网络模型采用的损失函数包括交叉熵损失函数和基于Gumbelsoftmax的损失函数。

3.根据权利要求1中所述的基于反向注意力模型的语义分割方法，其特征在于，所述注意力计算模型采用通道注意力和空间注意力相结合的方式，即：
M(F)＝σ(Mc(F)+Ms(F))，
其中F∈RH×W×C为输入特征，H为图像的长，W为图像的宽，C为通道数，Mc为通道注意力计算函数，c为通道的注意力，Ms为空间注意力计算函数，s为空间的注意力，σ为sigmoid函数；Mc和Ms分别定义如下：
Mc(F)＝BN(MLP(AvgPool(F)))
＝BN(w1(w0AvgPool(F)+b0)+b1)

其中，MLP表示多层感知器，即全连接；AvgPool为平均池化层，BN为批量归一化，w0、w1为网络权重，b0和b1为偏移量参数，w0∈RC/r×C、b0∈RC/r、w1∈RC×C/r及b1∈RC，r为通道缩放比率，C为通道数；f0、f1、f2、f3为卷积操作，1×1和3×3为卷积核大小。<...

【专利技术属性】
技术研发人员：李磊，董卓莉，费选，母亚双，李卫东，王贵财，石帅锋，李铮，
申请(专利权)人：河南工业大学，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人