当前位置: 首页 > 专利查询>天津大学专利>正文

基于注意力机制的图像语义分割方法技术

技术编号:22135735 阅读:27 留言:0更新日期:2019-09-18 09:22
本发明专利技术涉及一种基于注意力机制的图像语义分割方法,包括:选定合适的语义分割数据集作为深度卷积神经网络的训练数据,数据集包含图片和标注,标注含有每一个像素点的语义标签;构建语义分割深度卷积神经网络,选取语义分割网络的主干网络用于提取图像特征,并在主干网络之后串联改进的注意力机制计算模块(Attention Module);选择合适的损失函数,设计网络训练循环迭代的次数和训练方式,并初始化网络参数;将训练数据批量输入到该网络中,进行计算和训练。

Image Semantic Segmentation Based on Attention Mechanism

【技术实现步骤摘要】
基于注意力机制的图像语义分割方法
本专利技术属于深度学习和计算机视觉领域,特别涉及一种用于图像语义分割的兼具有效及高效的注意力机制算法。
技术介绍
图像语义分割是计算机视觉领域的基础且具挑战性的课题。近些年来基于深度学习的语义分割取得了显著的成果,已经广泛应用于视频监控、自动驾驶和人机交互等众多领域。图像语义分割任务是为图像中每一个像素点分配一个代表其语义信息的标签,例如‘车’、‘人’,从语义构成的层面解析一幅图像。当前语义分割任务主要通过获取上下文信息(把周围点的信息编码到当前点的特征中,以辅助当前点更好地分配恰当的标签)来达到性能的提升。目前主流的编码上下文信息的方法大致可分为两类:基于空洞卷积的算法和基于注意力机制(Attentionmechanism)的算法。基于空洞卷积的算法以Deeplab[1][2][3]一系列论文中的空洞空间金字塔池化模块(AtrousSpatialpyramidpooling,ASPP)为代表,使用多个不同膨胀率的空洞卷积来提取不同尺度上的信息。DenseASPP[4]的作者使用密集连接改进ASPP模块提取更加密集、范围更广的上下文信息。基于注意力机制的算法有[5][6]。[5]使用了两种注意力模块,包括为每一个位置点添加权重的位置注意力模块(PositionAttentionModule)和为每一个通道添加权重的通道注意力模块(ChannelAttentionModule),其中位置注意力模块整合了所有位置点的信息到当前点之中,而通道注意力模块则整合了所有通道的信息。[6]简化了常用的位置注意力模块以节省计算和内存消耗。本专利主要关注基于注意力机制的图像语义分割方法。已有的位置注意力算法利用矩阵乘法计算当前点与周围点特征向量的相似矩阵,并由这个相似矩阵得到周围点的权重值(与当前点特征向量相似度高的权重较大),之后把当前点的特征向量更新为周围点特征向量以及权重值的加权求和。通常情况(例如[5])下位置注意力算法计算当前点与特征图上每一点(包括当前点)的相似度,这导致了大量的计算消耗;而[6]中为节省计算和内存消耗只计算位于当前点同一行同一列上点的相似度而忽略了其余位置上的上下文信息,上下文信息的提取不够充分。参考文献:[1]ChenLC,PapandreouG,KokkinosI,etal.DeepLab:SemanticImageSegmentationwithDeepConvolutionalNets,AtrousConvolution,andFullyConnectedCRFs[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2016,40(4):834-848.[2]ChenLC,PapandreouG,SchroffF,etal.RethinkingAtrousConvolutionforSemanticImageSegmentation[J].2017.[3]ChenLC,ZhuY,PapandreouG,etal.Encoder-DecoderwithAtrousSeparableConvolutionforSemanticImageSegmentation[J].2018.[4]MaokeYang,KunYu,ChiZhang,etal.DenseASPPforSemanticSegmentationinStreetScenes[C].TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR).2018.[5]JunFu,JingLiu,HaijieTian,etal.DualAttentionNetworkforSceneSegmentation[C].TheNationalConferenceonArtificialIntelligence(AAAI).2019.[6]ZilongHuang,XinggangWang,LichaoHuang,etal.CCNet:Criss-CrossAttentionforSemanticSegmentation.arXiv:1811.11721.
技术实现思路
本专利技术目的在于提供一种用于图像语义分割算法的既有效又高效的位置注意力方法,解决现有位置注意力模块在计算量消耗与性能之间的矛盾。该方法增加少量的计算量,但为位置注意力模块融入更多的上下文信息,达到一个较优的性能与计算量之间的平衡,具有较强的实用性和普适性。为了达到上述目的,本专利技术的技术方案如下:一种基于注意力机制的图像语义分割方法,包括下列步骤:1)选定合适的语义分割数据集作为深度卷积神经网络的训练数据,数据集包含图片和标注,标注含有每一个像素点的语义标签;2)构建语义分割深度卷积神经网络,选取语义分割网络的主干网络用于提取图像特征,并在主干网络之后串联改进的注意力机制计算模块(AttentionModule),该模块对主干网络的输出进行进一步的处理并输出语义分割的结果,即图像中每一点属于哪一个语义标签的分类结果,该模块如下:a)对于一个给定的输入特征首先通过两个1×1的卷积操作进行通道降维,得到两个降维后的特征图C'<C,C、C'表示特征图通道的个数,H和W分别表示特征图的高和宽;之后,对特征图H通过一个1×1的卷积操作得到特征图b)计算特征向量相似度,并由相似度计算权重值A:对于特征图Q中的每一点u可以从Q中抽取出该点的特征向量u∈{1,2,3,......,H×W},同时对于K中位于u点同一行同一列以及周围R×R区域的点,从K中抽取出一个特征向量的集合记为是Ωu的第i个元素,i∈{1,2,3,......,H+W+R×R};之后使用向量乘法计算相似度di,u=QuΩi,uT,D表示特征图上每一点与该点周围H+W+R×R个点的相似度的集合,特征图上每一点对应于H+W+R×R个相似度,对这H+W+R×R个相似度进行SoftMax操作得到归一化的权重值是A的一个元素,表示点u周围第i个点相对于u点的权重值,i∈{1,2,3,......,H+W+R×R},u∈{1,2,3,......,H×W};c)计算该模块的输出H':对于特征图V上的每一点u可以从V中抽取出一个特征向量以及一个特征向量集合集合φu是V上位于点u同一行同一列以及周围R×R区域的点的特征向量的集合,之后,计算是输出特征图上点u的特征向量,Hu'由点u周围的H+W+R×R个点的特征向量的加权和加上原始特征图中点u的特征向量Hu得到;3)选择合适的损失函数,设计网络训练循环迭代的次数和训练方式,并初始化网络参数;4)将训练数据批量输入到该网络中,进行计算和训练,具体步骤如下:a)将训练数据输入网络中,依次输入到网络主干部分和改进版注意力机制计算模块进行计算;b)计算网络损失函数并进行反向传播,按照梯度下降法更新网络权重;c)循环步骤a)、b),经过多次迭代后,损失收敛,得到训练好的神经网络模型;5)将训练好的模型应用于测试/实际应用中,当输入图像时,通过该模型可以得到当前图像的中每一像素点的语义类别。采用本专利技术所述方法,实现简单,应用于图像语义分割,在保本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的图像语义分割方法,包括下列步骤:1)选定合适的语义分割数据集作为深度卷积神经网络的训练数据,数据集包含图片和标注,标注含有每一个像素点的语义标签;2)构建语义分割深度卷积神经网络,选取语义分割网络的主干网络用于提取图像特征,并在主干网络之后串联改进的注意力机制计算模块(Attention Module),该模块对主干网络的输出进行进一步的处理并输出语义分割的结果,即图像中每一点属于哪一个语义标签的分类结果,该模块如下:a)对于一个给定的输入特征

【技术特征摘要】
1.一种基于注意力机制的图像语义分割方法,包括下列步骤:1)选定合适的语义分割数据集作为深度卷积神经网络的训练数据,数据集包含图片和标注,标注含有每一个像素点的语义标签;2)构建语义分割深度卷积神经网络,选取语义分割网络的主干网络用于提取图像特征,并在主干网络之后串联改进的注意力机制计算模块(AttentionModule),该模块对主干网络的输出进行进一步的处理并输出语义分割的结果,即图像中每一点属于哪一个语义标签的分类结果,该模块如下:a)对于一个给定的输入特征首先通过两个1×1的卷积操作进行通道降维,得到两个降维后的特征图C'<C,C、C'表示特征图通道的个数,H和W分别表示特征图的高和宽;之后,对特征图H通过一个1×1的卷积操作得到特征图b)计算特征向量相似度,并由相似度计算权重值A:对于特征图Q中的每一点u可以从Q中抽取出该点的特征向量u∈{1,2,3,......,H×W},同时对于K中位于u点同一行同一列以及周围R×R区域的点,从K中抽取出一个特征向量的集合记为是Ωu的第i个元素,i∈{1,2,3,......,H+W+R×R};之后使用向量乘法计算相似度di,u=QuΩi,uT,D表示特征图上每一点与该点周围H+W+R×R个...

【专利技术属性】
技术研发人员:岳师怡庞彦伟
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1