当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于多尺度多级注意力机制的图像语义分割方法技术

技术编号:24332327 阅读:26 留言:0更新日期:2020-05-29 20:16
本发明专利技术公开了一种基于多尺度多级注意力机制的图像语义分割方法。本发明专利技术包括以下步骤:1、对图像和真实标签图进行数据预处理。2、建立多尺度注意力机制模型的神经网络结构,进行图像特征提取及融合。3、建立多级注意力机制模型的神经网络结构,进行多级图像的特征融合。4、模型训练,利用反向传播算法训练神经网络参数,直到网络收敛。本发明专利技术一种针对图像语义分割的神经网络模型,特别是提出了一种在多尺度上提取图像自身注意力信息的统一建模方法,以及在多级层面上进行不同级图像特征融合的网络结构,并且获得了在语义分割领域较好的分割效果。

A method of image semantic segmentation based on multi-scale and multi-level attention mechanism

【技术实现步骤摘要】
一种基于多尺度多级注意力机制的图像语义分割方法
本专利技术属于计算机视觉
,涉及一种针对图像语义分割的深度神经网络模型,具体涉及一种对图像特征数据进行统一建模的方法以及在图像特征上学习像素点之间关联性的方法从而建立图像语义分割的深度模型。
技术介绍
图像语义分割技术就是机器自动分割并识别出图像的内容。2D图像、视频、甚至是3D数据的语义分割,是计算机视觉领域的一个关键问题。语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题,在从图像提取知识应用数量急剧增强的今天显得尤为重要。这些应用包括:自动驾驶、人机交互、计算机摄影、图像搜索引擎、以及增强现实。这些问题在过去已经使用多种计算机视觉及机器学习的方法得以解决。尽管这些方法深受欢迎,但深度学习改变了这个局面,许多计算机视觉问题,包括语义分割,正在被深度框架解决。通常是深度卷积神经网络,其能够显著地提高准确率和效率。然后,深度学习相比机器学习以及计算机视觉的其他分支还远未成熟。鉴于此,关于深度学习框架下的图像语义分割仍有大量的研究空间。随着近年来深度学习的迅速发展,使用深度神经网络(ConvolutionalNeuralNetworks,CNN)和全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)进行端到端(end-to-end)地问题建模成为计算机视觉方向上的主流研究方法。在图像语义分割算法中,引入端对端建模的思想,同时对特征图像使用适当的网络结构进行端到端建模,直接输入预测的语义图像是一个值得深入探讨的问题。由于自然场景下的图像内容复杂,主体多样,导致逐像素地对图像进行语义分析过于吃力且效率不高,所以通过寻找到特征图像的中像素点之间的联系是该任务的几个关键难点的切入口。综上所述,在基于端到端建模的图像语义分割方法中引入注意力学习(像素点之间的联系)是十分有必要的,是一个值得深度研究的方向,本课题从该任务的几点关键难点问题入手,解决目前方法存在的问题,并最终形成一套较完整的图像语义分割模型。
技术实现思路
针对现有技术存在的问题,本专利技术提出了一种基于多尺度多级注意力机制的图像语义分割方法。本专利技术解决其技术问题所采用的技术方案如下:给定图像I,相应的真实标签图Gt,构成训练集。步骤(1)、数据集预处理,对图像数据进行特征提取对图像I进行预处理:先将图像I进行水平旋转、尺寸随机放缩,最后裁剪成统一的尺寸,再使用全卷积神经网络提取图像的特征得到If1、If2、If3和If4。步骤(2)、建立多尺度注意力机制模型(MSM),进一步特征提取输入图像特征If4,通过双线性插值对其进行不同程度的缩放,最后进行通道融合得到指定维度的特征图像If4_att。步骤(3)、建立多级注意力机制模型(MCM),进行特征融合输入图像特征If1、If2和If4_att,使用提出的多级注意力机制模型进行三个特征的有效融合,得到特征信息强且鲁棒性好的特征图IF。步骤(4)、模型训练输入特征图IF、If2与真实标签图Gt进行空间交叉熵计算,得到与真实解的差异,并利用反向传播算法对步骤(2)和步骤(3)定义的全卷积神经网络的模型参数进行训练,直到整个网络模型能到收敛。步骤(1)所述的数据预处理以及对图像进行特征提取:对图像I进行特征提取,使用现有的全卷积神经网络(FCN)提取图像特征,形成图像特征If1、If2、If3和If4,其中和其中中c是图像特征的通道数,h和w分别是图像特征的高和宽。步骤(2)所述的用于图像语义分割的多尺度注意力机制模型(MSM)进行特征融合,具体公式如下:2-1.对于进行不同尺度上提取特征信息,具体公式如下:x=Conv(If4)(1)xs=Attention(bilinearinterpolation(x,size(s));s=1,2,3,4;size=[48,32,16,8](2)Ys=Concat(bilinearinterpolation(xs,64),If4)(3)其中Conv是1×1卷积,对If4通道进行降维;bilinearinterpolation函数是指双线性插值对特征进行放缩;Concat函数是指特征进行拼接操作。其中Attention函数具体公示如下:对Attention函数输入特征图像x,具体公式如下:xquery=Conv(x);xkey=Conv(x);xvalue=Conv(x)(4)xcontext=xtvalue×xattention(6)xout=μ×xcontext+x(7)其中μ是指可学习的系数且xt是指矩阵转置。2-2.对于Concat输出结果进行降维,提取特征信息,具体公式如下:If4_att=Conv(Ys)(8)其中Conv是1×1卷积,对Ys通道进行降维;步骤(3)所述的用于图像语义分割的多级注意力机制模型(MCM),具体如下:首先叙述用于图像语义分割的多级注意力机制模型,具体实现如下:对多级注意力机制模型输入低阶特征图像xl和高阶特征图像xh,具体公式如下:3-1.对输入的两个特征图进行统一维度和尺寸的操作:xl=Conv(xl)(9)xh=bilinearinterpolation(xh,size(xl))(10)其中Conv函数是1×1卷积,对xl进行通道降维;bilinearinterpolation函数是双线性插值对xh进行尺寸放大得到与xl统一的尺寸。3-2.对两个相同维度的特征图像进行拼接和归一化操作,得到注意力信息:xlh=Concat(xl,xh)(11)xatt=Softmax(Normalize(GAP(xlh)))(12)其中GAP为全局平均池化,Softmax公式如下3-3.将注意力信息图像和低阶特征图像做Hadamardproduct操作,其具体公式如下:3-4.对Hadamardproduct输入和高阶特征图像做求和操作,其具体公式如下:Fa=fa+xh(15)然后依次将If4_att、If2和If1输入到多级注意力机制模型中,具体公式如下:IF=MCM(If4_att,If2)(16)IF=MCM(IF,If1)(17)其中MCM函数是指多级注意力机制模型。步骤(4)所述的训练模型,具体如下:将步骤(3)产生的预测图像IF、步骤(1)产生的特征图像If3和真实标签图Gt输入到定义的损失函数CrossEntropyLoss中,得到损失值Loss,具体公示如下:Loss=CrossEntropyLoss(IF,If3,Gt)(18)其中CrossEntropyLoss公式如下:Loss=L1+λ×本文档来自技高网
...

【技术保护点】
1.一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于包括以下步骤:/n给定图像I,相应的真实标签图Gt,构成训练集:/n步骤(1):数据集预处理,对图像数据进行特征提取/n对图像I进行预处理:先将图像I进行水平旋转、尺寸随机放缩,最后裁剪成统一的尺寸,再使用全卷积神经网络提取图像的特征得到I

【技术特征摘要】
1.一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于包括以下步骤:
给定图像I,相应的真实标签图Gt,构成训练集:
步骤(1):数据集预处理,对图像数据进行特征提取
对图像I进行预处理:先将图像I进行水平旋转、尺寸随机放缩,最后裁剪成统一的尺寸,再使用全卷积神经网络提取图像的特征得到If1、If2、If3和If4。
步骤(2):建立多尺度注意力机制模型(MSM),进一步特征提取
输入图像特征If4,通过双线性插值对其进行不同程度的缩放,最后进行通道融合得到指定维度的图像特征If4_att。
步骤(3):建立多级注意力机制模型(MCM),进行特征融合
输入图像特征If1、If2和If4_att,使用提出的多级注意力机制模型进行三个特征地有效融合,得到特征信息强且鲁棒性好的特征图IF。
步骤(4):模型训练
输入特征图IF、If2与真实标签图Gt进行空间交叉熵计算,得到与真实解的差异,并利用反向传播算法对步骤(2)和步骤(3)定义的全卷积神经网络的模型参数进行训练,直到整个网络模型能到收敛。


2.根据权利要求1所述的一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于步骤(1)的图像预处理和步骤(2)的多尺度注意力机制模型(MSM)的特征融合,具体如下:
2-1.对图像I进行特征提取,使用现有的全卷积神经网络(FCN)提取图像特征,形成图像特征If1、If2、If3和If4,其和其中中c是图像特征的通道数,h和w分别是图像特征的高和宽。
2-2.对于If4,进行不同尺度上提取特征信息,具体公式如下:
x=Conv(If4)(1)
xs=Attention(bilinearinterpolation(x,size(s));s=1,2,3,4;size=[48,32,16,8](2)
Ys=Concat(bilinearinterpolation(xs,64),If4)(3)
其中Conv是1×1卷积,对If4通道进行降维;bilinearinterpolation函数是指双线性插值对特征进行放缩;Concat函数是指特征图像进行拼接操作。其中Attention函数具体公示如下:
对Attention函数输入特征图像x,具体公式如下:
xquery=Conv(x);xkey=Conv(x);xvalue=Conv(x)(4)



xcontext=xtvalue×xattention(6)
xout=μ×xcontext+x(7)
其中μ是指可学习的系数且xt是指矩阵转置。
2-3.对于Concat输出结果进...

【专利技术属性】
技术研发人员:许海霞黄云佳刘用周维王帅龙
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1