【技术实现步骤摘要】
一种基于边界框和同现特征预测的图像分割方法
[0001]本专利技术涉及信息
,具体涉及一种基于边界框和同现特征预测的图像分割方法。
技术介绍
[0002]图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。图像分割技术在多个领域都有研究,例如:像成为心理学、生理学、计算机科学等诸多领域内的学者们研究视觉感知的有效工具。其次,图像处理在军事、遥感、气象等大型应用中有不断增长的需求。虽然理论上用途广泛,但是大多数的图像分割方法在实际应用都存在不足,例如分割结果的语义不明确,分割边界不准确等。
[0003]早期的算法大都提取图像的低层特征信息来进行前景分割,低层特征包括图像的纹理、颜色、位置、物体轮廓等,但是低层特征有很大的局限性,例如图像中出现颜色或纹理相似的不同物体类别就无法做到有效精确的分割。随着神经网络的发展,研究者逐步在原来的基础上添加了高级语义特征,例如利用全卷积神经网络(FCN)和深度监督网络(DSN)对图像进行训练和预测,使其能够从多尺度多层次上进行特征的学习和提取;利用VGG
‑
net网络提取图像的高级特征,将高级和低级的特征连接起来以评判图像各区域的显著性等。但是上述方法对于图像中的上下文信息不能做到很好的利用,即使是融入了全局上下文特征的算法,在面对复杂的场景信息时,也会因为无法明确 ...
【技术保护点】
【技术特征摘要】
1.一种基于边界框和同现特征预测的图像分割方法,其特征在于,包括如下步骤:1)引入FCOS方法,使用多尺度策略和中心度方法确定主体:1.1)输入图像和真实边界框,基于一阶全卷积目标检测FCOS方法,使用多尺度策略和中心度方法,确定并输出主体目标边界框范围;1.2)输入基于主体目标边界框范围的图像,采用上下文感知金字塔特征提取模块CPFE,用于多尺度高层次特征映射,以获得丰富的上下文特征;CPFE将VGG
‑
16网络架构中的Conv3
‑
3、Conv4
‑
3和Conv5
‑
3作为基本的高层特征,VGG
‑
16包含有13个卷积层和三个全连接层;1.3)在上下文感知金字塔特征提取后,添加并使用通道注意力机制模型,从而对显着对象表现出高响应的通道分配更大的权重;通过使用通道注意力机制模型对上下文感知金字塔特征进行加权,输出的新的高层特征;1.4)获取自然图像的低层特征,将VGG
‑
16网络架构中的Conv1
‑
2和Conv2
‑
2作为基本的低层特征作为输入,采用空间注意力机制模型关注显著性物体和背景之间的边界,助于生成用于包含边界信息的有效低层特征;1.5)将通过通道注意机制模型加权后的高层特征和通过空间注意机制模型加权后的低层特征输出融合在一起,使用交叉熵损失来监督显著边界定位信息的生成;根据定位信息,输出图像前景轮廓的灰度图;2)同现特征分类:首先给定输入图像,利用预先训练的CNN提取卷积特征图;然后分成三个分支进行:一是利用前馈网络和将特征图转换为目标向量和同现向量的表示,并基于相似度估计同现特征的概率;二是通过聚合同现特征模块ACF使用具有同现概率的Ψ捕获的同现上下文;三是使用平均池化来捕获全局特性;3)边缘精准化:3.1)首先是输入图像后,进行收集图像信息特征;图像的信息特征主要来自两个方面:一是基于光谱消光,从谱分析的角度,得到来自输入图像的非局部的颜色关系信息;二是使用用于场景分析的卷积神经网络,生成的高级语义关系信息;3.2)将图像的非局部的颜色关系信息和高级语义关系信息相结合,建立图像层,在拉普拉斯矩阵的特征向量中揭示语义对象以及语义对象之间的软过渡关系;3.3)接着提取拉普拉斯矩阵L的100个最小特征值对应的特征向量,再使用k
‑
means聚类处理特征向量;边缘精准化处理过程完毕,将输出由拉普拉斯矩阵构成的图像图层;4)确定主体结果、同现特征分类结果及边缘精准化结果相融合:4.1)首先,处理确定主体部分的结果;通过步骤1.5)的输出结果所得到灰度图进行二值化处理,保留主体轮廓以及明显的主体白色区域;4.2)然后,对同现特征的结果进行处理;在同现特征的结果中得到每个类对应的矩阵,将其分别与灰度图进行点乘,目的是确定主体类的类别,对于每个类与灰度图计算得到的结果矩阵,遍历计算其中的交集部分,在所有类中交集最大的即为主体类,保留该类与灰度图的交集记为co_map;4.3)接着,处理边缘精准化部分的结果;遍历整个矩阵集合,找到每个像素点所属的最大透明度的类所在的矩阵,认为是其属于的类,除了该类外其他矩阵中的透明度均设置为
0;4.4)最后,将步骤4.3)中输出的拉普拉斯矩阵集合分别和显著性检测结果的灰度图进行点乘,再确定所需保留以及保留类之间交集部分,将所有保留记录的部分结合起来就是最终所需前景主体部分;4.5)融合过程处理完毕,输出图像的前景部分。2.根据权利要求1所述的一种基于边界框和同现特征预测的图像分割方法,其特征在于,所述步骤1.1)具体过程如下:1.1.1)首先采用FCOS方法,进行逐像素回归预测,预测策略如下:边界框其中为边界框左上角的坐标,为边界框右下角的坐标,其中i表示在图像中的第i个边界框;像素位置为(m,n),则向量a
*
=(l
*
,t
*
,r
*
,b
*
),l
*
、t
*
、r
*
、b
*
分别表示像素到边界框左侧、上侧、右侧和下侧的距离;建立位置(m,n)与边界框B
i
相关联后,则该位置的训练回归目标可以表示为:相关联后,则该位置的训练回归目标可以表示为:由于FCOS算法是基于目标物体框中的点进行逐像素回归的,因此执行回归的目标都是正样本,所以使用exp函数将回归目标进行拉伸,即将上述公式得到的l
*
、t
*
、r
*
、b
*
值作为变量,带入到exp函数中,输出的值分别为对应像素到边界框左侧、上侧、右侧和下侧的距离值进行拉伸后的值;1.1.2)其次,使用多尺度策略,解决真实值框重叠所导致难以处理的歧义问题,即重叠中的某个位置应该回归哪个边界框;为了能够更好的利用多尺度特征,在每一个尺度的特征层都限定了边界框回归的范围,具体步骤如下:1.1.2.1):定义为{P1,P2,P3,P4,P5}的五个层次的特征图,以满足多尺度策略的训练,每一层满足不同参数H
×
W/s*,其中H和W对应特征图的高度和宽度,s*是特征图的下采样率;然后计算每一层中的回归目标:l
*
、t
*
、r
*
、b
*
;1.1.2.2):判断max(l
*
、t
*
、r
*
、b
*
)>d
i
或者max(l
*
、t
*
、r
*
、b
*
)<d
i
‑1是否满足,其中max表示取最大值;d
i
是特征级别i需要回归的最大距离,对应第一步中定义的五个层次特征图{P1,P2,P3,P4,P5},对应5个特征级别,对应i取值为1、2、3、4、5,设置d0、d1、d2、d3、d4、d5为0、64、128、256、512和∞;1.1.2.3):若步骤1.1.2.2)中的判断式得到满足,则将其设置为负样本,不对此边界框进行回归预测;1.1.3)最后,使用中心度方法;由于FCOS算法使用了逐像素回归策略,在提升召回率的同时,会产生许多低质量的中心点与偏移较多的预测边界框,因此使用中心度方法来抑制这些低质量检测到的边界框,且该策略不引入任何超参数;中心度方法给网络添加了一个损失,而该损失保证了预测的边界框尽可能的靠近中心;
其中,max表示取最大值,min表示取最小值;从上述公式可以得出:中心度为一种具有度量作用的概念,取值为0到1之间,先求出上式中的centerness
*
,将得到的centerness
*
使用交叉熵损失进行训练;其中交叉熵损失是数学中用于度量两个概率分布间的差异性函数,可以度量预测值和真实标签值之间的信息损失,交叉熵损失函数Loss的表达式如下:n表示有n组标签,e是第i个真实标签的概率分布,表示第i个标签预测结果的概率分布;centerness
*
作为值,输入到上式中,且当centerness
*
∈[0.5,1]时,取1,;当centerness
*
∈[0,0.5)时,取0,计算每一次训练后得到的Loss;当Loss小于某一个给定阈值,即表示预测值和真实标签值之间的信息损失满足预期要求,结束训练;当Loss大于给定阈值,减小l
*
、t
*
、r
*
、b
*
的值,即将边界框更靠近中心,重新计算centerness
*
与对应的Loss值。3.根据权利要求1所述的一种基于边界框和同现特征预测的图像分割方法,其特征在于,所述步骤1.2)具体过程如下:1.2.1)为了使得最终提取的高层特征满足尺度不变性和形状不变性特征,采用不同扩张率的多孔卷积,并进一步分别设置扩张率为3、5和7来捕捉上下文信息;1.2.2)通过跨通道连接,将来自不同多孔卷积层的特征图与1
×
1降维特征进行拼接;然后,利用上下文感知信息得到三种不同尺度的特征,三种不同尺度的特征两两组合,将每两个较小的尺度特征上采样得到较大的尺度特征,因此输出三个尺度的高级特征;其中,上采样又称图像插值,即在原有图像像素的基础上在像素点之间采用插值算法插入新的元素,从而放大原图像;1.2.3)最后,通过跨通道连接将上采样得到的高级特征组合起来,作为上下文感知金字塔特征提取模块的输出。4.根据权利要求1所述的一种基于边界框和同现特征预测的图像分割方法,其特征在于,所述步骤1.3)具体过程如下:1.3.1)首先将进行上下文感知金字塔特征提取后高层特征f
h
∈R
W
×
H
×
C
展开为其中表示表示高层特征f
h
的第i层,R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数;随后平均池化高级特征每层的以获得通道特征向量v
h
,其中平均池化的目的是减小因邻域大小受限造成估计值方差增大的误差,从而有利于保留图像更多的背景信息,平均池化的结果S
j
通过下述公式求得:其中,T表示选择参与池化的激活值的序位阈值,R
j
表示在第j个特征图内的池化域,i表
示在这个池化域内激活值的索引值,r
i
和g
i
分别表示激活值i的序位和激活数值;1.3.2)然后,将上一步获得的通道特征向量v
h
,通过全连接层FC,输出到ReLU层;1.3.3)随后,通道特征向量通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到ca值,即高层特征每层的权重矩阵;因此ca=F(v
h
,W)=σ1(fc2(δ(fc1(v
h
,W1)),W2)),其中W1、W2为通道注意力机制的参数,σ1指的是sigmoid操作,fc指的是全连...
【专利技术属性】
技术研发人员:陆佳炜,朱冰倩,陈纬鉴,董振兴,姜钦凯,朱明杰,程振波,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。