【技术实现步骤摘要】
一种基于多尺度多级注意力机制的图像语义分割方法
本专利技术属于计算机视觉
,涉及一种针对图像语义分割的深度神经网络模型,具体涉及一种对图像特征数据进行统一建模的方法以及在图像特征上学习像素点之间关联性的方法从而建立图像语义分割的深度模型。
技术介绍
图像语义分割技术就是机器自动分割并识别出图像的内容。2D图像、视频、甚至是3D数据的语义分割,是计算机视觉领域的一个关键问题。语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题,在从图像提取知识应用数量急剧增强的今天显得尤为重要。这些应用包括:自动驾驶、人机交互、计算机摄影、图像搜索引擎、以及增强现实。这些问题在过去已经使用多种计算机视觉及机器学习的方法得以解决。尽管这些方法深受欢迎,但深度学习改变了这个局面,许多计算机视觉问题,包括语义分割,正在被深度框架解决。通常是深度卷积神经网络,其能够显著地提高准确率和效率。然后,深度学习相比机器学习以及计算机视觉的其他分支还远未成熟。鉴于此,关于深度学习框架下的图像语义分割仍有大量的研究空间。随着近年来深度学习的迅速发展,使用深度神经网络(ConvolutionalNeuralNetworks,CNN)和全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)进行端到端(end-to-end)地问题建模成为计算机视觉方向上的主流研究方法。在图像语义分割算法中,引入端对端建模的思想,同时对特征图像使用适当的网络结构进行端到端建模,直接输入预测的语义图像是一个值 ...
【技术保护点】
1.一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于包括以下步骤:/n给定图像I,相应的真实标签图Gt,构成训练集:/n步骤(1):数据集预处理,对图像数据进行特征提取/n对图像I进行预处理:先将图像I进行水平旋转、尺寸随机放缩,最后裁剪成统一的尺寸,再使用全卷积神经网络提取图像的特征得到I
【技术特征摘要】
1.一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于包括以下步骤:
给定图像I,相应的真实标签图Gt,构成训练集:
步骤(1):数据集预处理,对图像数据进行特征提取
对图像I进行预处理:先将图像I进行水平旋转、尺寸随机放缩,最后裁剪成统一的尺寸,再使用全卷积神经网络提取图像的特征得到If1、If2、If3和If4。
步骤(2):建立多尺度注意力机制模型(MSM),进一步特征提取
输入图像特征If4,通过双线性插值对其进行不同程度的缩放,最后进行通道融合得到指定维度的图像特征If4_att。
步骤(3):建立多级注意力机制模型(MCM),进行特征融合
输入图像特征If1、If2和If4_att,使用提出的多级注意力机制模型进行三个特征地有效融合,得到特征信息强且鲁棒性好的特征图IF。
步骤(4):模型训练
输入特征图IF、If2与真实标签图Gt进行空间交叉熵计算,得到与真实解的差异,并利用反向传播算法对步骤(2)和步骤(3)定义的全卷积神经网络的模型参数进行训练,直到整个网络模型能到收敛。
2.根据权利要求1所述的一种基于多尺度多级注意力机制的图像语义分割方法,其特征在于步骤(1)的图像预处理和步骤(2)的多尺度注意力机制模型(MSM)的特征融合,具体如下:
2-1.对图像I进行特征提取,使用现有的全卷积神经网络(FCN)提取图像特征,形成图像特征If1、If2、If3和If4,其和其中中c是图像特征的通道数,h和w分别是图像特征的高和宽。
2-2.对于If4,进行不同尺度上提取特征信息,具体公式如下:
x=Conv(If4)(1)
xs=Attention(bilinearinterpolation(x,size(s));s=1,2,3,4;size=[48,32,16,8](2)
Ys=Concat(bilinearinterpolation(xs,64),If4)(3)
其中Conv是1×1卷积,对If4通道进行降维;bilinearinterpolation函数是指双线性插值对特征进行放缩;Concat函数是指特征图像进行拼接操作。其中Attention函数具体公示如下:
对Attention函数输入特征图像x,具体公式如下:
xquery=Conv(x);xkey=Conv(x);xvalue=Conv(x)(4)
xcontext=xtvalue×xattention(6)
xout=μ×xcontext+x(7)
其中μ是指可学习的系数且xt是指矩阵转置。
2-3.对于Concat输出结果进...
【专利技术属性】
技术研发人员:许海霞,黄云佳,刘用,周维,王帅龙,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。