一种用于语义分割的层注意力机制制造技术

技术编号:38221602 阅读:10 留言:0更新日期:2023-07-25 17:53
本发明专利技术基于语义分割模型设计出一种层注意力机制,解决了语义分割中边缘分割不理想问题,优化了分割细节,提升了性能指标。本发明专利技术设计的层注意力机制使得模型训练过程中更关注有效信息,进而提高模型在拼接层时的效率。本发明专利技术设计出的层注意力机制,通过赋予待拼接层注意力值,使得模型在拼接过程中干预学习过程并修复边缘分割错误,能够有效提升语义分割任务中边缘分割不理想问题。本发明专利技术能够应用到自动驾驶、医学图像处理等领域中,分割效果优异。分割效果优异。分割效果优异。

【技术实现步骤摘要】
一种用于语义分割的层注意力机制


[0001]本专利技术属于计算机图像处理领域,具体涉及到一种用于语义分割的层注意力机制。

技术介绍

[0002]语义分割是计算机视觉中的一个重要的研究方向,其目的是对图像进行像素级别的识别,即对图像中的每个像素点进行类别的标注工作。语义分割的主要应用有以下几个方面:地理信息系统、自动驾驶、医学图像处理等。地理信息系统的应用主要是对采集到的卫星图像进行处理,将图像中的河流、建筑、草地等在像素级别进行标注并得到语义分割图;对于自动驾驶任务来说,语义分割能够使得智能汽车对道路环境状况进行感知,为后续智能汽车的行为决策提供支持保证;医学图像处理与神经网络的结合成为这几年的热点,主要应用于肿瘤图像、显微镜成像、超声图像等,相关技术也在不断提升中。
[0003]早期对语义分割问题的研究主要是基于机器学习的方法,这些方法主要将图像划分为多个小块,然后提取其中的特征信息进行训练,最终得到语义分割模型,不过基于机器学习的方法较为繁琐,需要人工设计特征且精度难以保证。而伴随着深度学习的热潮,将深度学习应用于语义分割任务依靠着其强大的表征能力逐渐成为主流。卷积神经网络是一种应用于图像处理领域的有效的深度学习方法,相比于人工提取特征,卷积、池化等操作能够与人类认知一样地自动学习图像的多层次特征,因此其在图像领域取得了极大的成功。Long等人提出了一种端到端的语义分割模型——全卷积网络,与传统卷积神经网络不同的是,在模型的末端使用反卷积操作将特征图恢复到和输入图像相同的尺寸,进而对图像的每个像素点进行预测。Ronneberger等人提出了一种“编码

解码”式的UNet结构,对于尺寸大小相同的特征层使用了跳跃拼接的方法进行信息交互,减少了分割的细节损失,具有较好的分割性能。之后,许多学者也提出了更为新颖的网络结构,例如DeepLab系列、PSPNet等,都展示了优秀的分割效果。UNet3+在UNet的基础上重新设计了编码器和解码器之间的联系,引入了全尺度跳跃连接及分类引导模块。通过调研发现,语义分割的研究对于人工智能及图像处理领域具有重要的意义,但是不仅是UNet3+,其他端到端的模型也存在一些问题,例如边缘处分割效果不理想,提高分割效果成为该领域研究的关键问题。

技术实现思路

[0004]基于上述语义分割研究现状的分析,本专利技术基于深度学习的思想,设计出一种用于语义分割的层注意力机制,相比于传统算法在拼接模型层时未考虑层与层之间的相关性,本专利技术提出了层注意力机制,最终改善了边缘处的分割效果。本专利技术基于层注意力机制的语义分割系统包括以下步骤:
[0005]1)以UNet3+为基础,搭建深度学习模型;
[0006]2)将本专利技术提出的层注意力机制引入步骤1)的深度学习模型中以优化边缘处分割效果;
[0007]3)对本专利技术采用的端到端语义分割模型在CamVid数据集和Cityscapes数据经济上进行实验。
附图说明
[0008]图1是本专利技术的基础模型示意图
[0009]图2是拼接层的实现细节(以3个特征图拼接为例)
[0010]图3是层注意力机制的实现细节(以3个特征图拼接为例)
[0011]图4是本专利技术分割效果和其他模型的分割效果的主观对比,从左到右依次为测试原图、标签图、UNet模型分割图、UNet3+模型分割图、本专利技术的分割图
[0012]图5是本专利技术分割效果和其他模型的分割效果的客观对比,在两个数据集上进行测试,性能指标为平均交并比和F1值,UNet3+w所在行为本专利技术的实验结果
具体实施方式
[0013]为了更清晰的解释本专利技术的内容,下面结合说明书附图对本专利技术进行进一步阐述。
[0014]本专利技术提供了一种基于层注意力机制的语义分割系统,具体包括以下步骤:
[0015]步骤1,首先搭建出网络的编码部分和解码部分,其次将解码器中的网络层分别作为终点,起点为多个相应的编码部分的模型浅层。如图1所示,En分别代表模型的编码部分,Dn分别代表模型的解码部分,解码器中每一层都由4个对应的浅层拼接后处理得到。为了便于损失函数计算,模型的末层输出即为经过one

hot编码后的分割图,至此,完成整体结构的搭建工作。
[0016]步骤2,传统拼接层的实现如图2所示,其未考虑层与层之间的相关性,对于目标物体的主体部分易于分割,但边缘部分由于特征图之间的不同而导致分割不理想。根据图3搭建出层注意力机制子模块:首先对待拼接特征图进行全局平均池化,其次经过两次全连接层后每个特征图都被拟合成一个常数,为了探究这些常数之间的关系,将其拼接后使用Softmax函数进行激活,常数被约束至区间[0,1]内且总和为1。至此,已得到各待拼接特征图的注意力值,之后将注意力值与原待拼接特征图进行相乘操作。最后进行模型层的拼接操作,层注意力机制对应的原理公式如下式所示:
[0017]result=C[X0,

,X
i
]*S(C[D(P(X0)),

,D(P(X
i
))])
[0018]其中C[
·
]代表拼接层(Concatenate Layer),X0,

,X
i
分别代表各个待拼接特征图(Feature Map),S(
·
)代表Softmax激活函数(Activation Function),D(
·
)代表两层全连接层(Fully Connected Layer),P(
·
)代表全局平均池化层(Global Average Pooling Layer)。
[0019]步骤3,使用CamVid和Cityscapes数据集对模型进行训练及测试,将相关参数调至最优,最终实验数据如图4所示,随机抽取图像进行测试,经过可视化后的效果图如图5所示。
[0020]本专利技术提出一种用于语义分割的层注意力机制,解决了语义分割中边缘部分分割不理想的问题,改善了语义分割中拼接层的过程中效率低的问题,层注意力机制使得待拼接特征图之间不再是相互独立的特征图,而是通过注意力值产生了相关约束性,使得模型
在训练过程中导向性更强,在拼接过程中修复边缘分割不理想问题,达到更好的分割效果。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语义分割的层注意力机制,其特征在于包括以下步骤:1)搭建UNet3+基础模型;2)设计并构造层注意力机制,将其嵌入至UNet3+基础模型中;3)在CamVid及Cityscapes数据集上进行训练和测试,微调层注意力机制的结构。2.按照权利要求1所述的基于层注意力机制的语义分割系统,其特征在于:步骤1)中的UNet3+模型搭建由以下的方式确定:本发明首先用卷积层、池化层、上采样层等网络层依次搭建出编码器与解码器,其次以对应的多个模型浅层为起点,解码器中的各网络层为终点实现跳跃连接,完成UNet3+网络的搭建工作。3.按照权利要求1所述的一种用于语义分割的层注意力机制,其特征在于:步骤2)中设计层注意力机制提高模型进行层融合时的效率。为了统计各通道的全局信息,对待拼接特征图进行全局平均池化;为了增强非线性并提高模型的学习能力,使用两个全连接层对每个待拼接特征图拟合出各自的注意力值;为了探究各注意力值之间的相关性约束,将各注意力值拼接后使用Softmax函数进行激活,注意力值被约束至区间[0,1]内且总和为1,并且能够加速...

【专利技术属性】
技术研发人员:张婷陈文欣刘凯
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1