一种基于前背景匹配的边界框弱监督图像分割方法技术

技术编号:37508812 阅读:13 留言:0更新日期:2023-05-07 09:48
本发明专利技术提供一种基于前背景匹配的边界框弱监督图像分割方法,包括将LAB图像送到全监督分割网络中得到前景分割结果;将边界框及前景分割结果送入掩码投影损失优化分割网络;使用领域像素一致性损失约束像素点对的前景分割结果一致;使用像素表示模块对输入图像中每个像素点生成能表示其语义的像素特征表示,并使用像素特征表示一致性损失约束相似性高的像素特征表示在空间上需要接近;将该特征表示按边界框划定前背景区域,使用K

【技术实现步骤摘要】
一种基于前背景匹配的边界框弱监督图像分割方法


[0001]本专利技术涉及图像分割
,具体涉及一种基于前背景匹配的边界框弱监督图像分割方法。

技术介绍

[0002]图像分割(Image Segmentation,IS)是一项预测图像中单个像素类别的任务,长期以来一直是图像理解和计算机视觉领域的关键问题之一。该技术根据像素的不同属性,将数字图像分为多个区域,进而提取有意义的信息以便于分析。与图像分类和目标检测任务不同,它通常是低级别或像素级别的视觉任务,图像的空间信息对于分割不同语义区域非常重要。大多数最先进的图像分割方法都是在全监督方式下进行的,依赖于大规模密集注释来训练深度网络。然而,为图像标注像素级标签是非常昂贵且耗时的,并且随着图像领域中各类应用任务越来越复杂以及各类任务所需要的数据量越来越大,人工标注工作所需的人力物力成本越来越高。同时,更多真实场景数据集不断涌现,数据集中的图像更加复杂和多样,这不仅导致了相关信息的完全标注越来越困难,而且标注的过程极易出错,难以保证标签的准确性。因此,保证图像分割效果的同时,如何减少对数据标签的依赖并降低数据标注的成本成为了深度神经网络发展过程中亟待解决的问题。
[0003]目标检测在卷积神经网络的推动下获得了显著发展,在ImageNet和Microsoft COCO这样的数据集中已经存在了大量可用的边界框注释。相对于像素级标注,边界框标注仅需要标注出图像中目标位置、类别和大致形状,省时省力。尽管边界框标注不如像素级标注精确,但仍然可以提升卷积神经网络在语义分割上的训练效果。基于这种情况,学者们开始研究利用边界框进行弱监督学习图像分割。
[0004]利用边界框进行弱监督学习图像分割的BoxSup方法利用边界标签和多尺度组合分组(Multiscale Combinatorial Grouping,MCG)方法生成稀疏的目标区域,将该区域作为真实分割掩膜,迭代进行FCN训练和获选区域生成过程直到模型收敛。虽然一个边界框标签不能包含详细的分割信息,但它提供一个区分对象类别的实例。大量对象实例可以有效提高卷积网络特征学习效果,从而提升图像分割的整体性能。
[0005]为了优化每次迭代生成伪标签的效果,学者们以GrabCut为基础,进行了一系列的研究。M Rajchl等人提出了DeepCut方法,该方法扩展了GrabCut方法,利用边界框标签训练神经网络分类器,产生像素级分割掩膜。DeepCut方法将图像分割问题表述为密集连接条件随机场上的能量最小化问题,并迭代更新训练目标提升训练效果。
[0006]之后的研究通过边界框驱动的类掩膜(Box

driven Class

wise Masking,BCM)模型来学习每个类的注意力图。BCM可以生成用于分割任务的指定类注意力图,并表明此区域是否包含特定的类。此外,基于边界框生成的候选区域,突出了填充率引导自适应损失(Filling Rate guided adaptive loss,FR

loss),以帮助模型忽略候选区域中标记错误的像素。FR

loss可以通过全局信息来调整训练模型,BCM和FR

loss可以协同工作,以减少错误标注区域带来的负面影响。
[0007]在不同的弱监督学习方法中,边界框标签是仅次于图像级标签的一个热门研究方法。在使用边界框标签进行训练时,大多数方法属于基于候选区域的方法。在这些方法中,通常将边界框内每个像素视为相应类别的正样本,边界框标签作为伪标签。使用一个渐层分割模型进行初始分割,其输出用于训练全监督深度神经网络。然后通过迭代循环,逐步优化分割标签生成质量。迭代过程包括两个步骤:一个更新网络参数,另一个调整伪分割标签。
[0008]这些方法虽然在很多领域取得了很好的效果,但是每个部分都需要单独训练,过程复杂,速度很慢,而且难以优化。
[0009]受密集边界框的启发,Hsu C等人提出了首个利用边界框标注进行端到端训练的实例分割算法,该算法将多实例学习(Multiple Instance Learning,MIL)思想引入弱监督图像分割中。在这种MIL框架中,正包由真实边界框框线组成,而负包对应于真实边界框框线外的区域。首先,使用ResNet101提取特征,然后使用RPN和ROI Align为每个检测到的边界框生成区域特征。该模型采用Mask R

CNN框架,拥有检测和分割两个分支。检测分支由全连接层和回归分类两个损失组成。在分割分支中,首先估计每个边界框内的实例分割图,然后使用MIL的边界框紧密度先验知识生成正包和负包。MIL损失Lmil通过这三个损失以端到端的方式被优化。与其他许多方法一样,最终预测也由密集条件随机场(dense Conditional Random Field,dCRF)进行了修正。

技术实现思路

[0010]针对现有像素级标注难以获取、成本高昂以及现有基于边界框的图像分割方法存在的边界区分不明显、过度分割的技术问题,本专利技术提供一种基于前背景匹配的边界框弱监督图像分割方法,该方法通过将边界框内部像素点的像素特征表示与建立的前背景模型进行匹配,来降低图像分割对像素级标注的依赖,以及提高现有弱监督分割方法的准确率。
[0011]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0012]一种基于前背景匹配的边界框弱监督图像分割方法,包括以下步骤:
[0013]S1、将RGB通道输入图像转换至LAB通道送到全监督分割网络中得到前景分割结果;
[0014]S2、将现有的边界框标注及步骤S1中得到的前景分割结果送入至本专利技术提出的掩码投影损失中计算优化分割网络,掩码投影损失将前景分割结果和边界框标注掩码都分别向X轴和Y轴做投影,这样将一整个矩形区域的强约束弱化为在两个方向上的投影约束,所述掩码投影损失表示如下:
[0015]L
proj
=L(Proj
x
(p),Proj
x
(b))+L(Proj
y
(p),Proj
y
(b))
[0016]=L(max
y
(p),max
y
(b))+L(max
x
(p),max
x
(b))
[0017]其中,式中L(
·
,
·
)使用的是IoULoss,表示前景分割结果在Y轴上进行max操作,表示前景分割结果在X轴上进行max操作,Proj
x
(b)=max
y
(b)=l
x
表示边界框标注掩码在Y轴上进行max操作,Proj
y
(b)=max
x
(b)=l
y
表示边界框标注掩码在X轴上进行max操作;p∈(0,1)
H
×
W...

【技术保护点】

【技术特征摘要】
1.一种基于前背景匹配的边界框弱监督图像分割方法,其特征在于,包括以下步骤:S1、将RGB通道输入图像转换至LAB通道送到全监督分割网络中得到前景分割结果;S2、将现有的边界框标注及步骤S1中得到的前景分割结果送入至本发明提出的掩码投影损失中计算优化分割网络,掩码投影损失将前景分割结果和边界框标注掩码都分别向X轴和Y轴做投影,这样将一整个矩形区域的强约束弱化为在两个方向上的投影约束,所述掩码投影损失表示如下:L
proj
=L(Proj
x
(p),Proj
x
(b))+L(Proj
y
(p),Proj
y
(b))=L(max
y
(p),max
y
(b))+L(max
x
(p),max
x
(b))其中,式中L(
·
,
·
)使用的是IoULoss,表示前景分割结果在Y轴上进行max操作,表示前景分割结果在X轴上进行max操作,Proj
x
(b)=max
y
(b)=l
x
表示边界框标注掩码在Y轴上进行max操作,Proj
y
(b)=max
x
(b)=l
y
表示边界框标注掩码在X轴上进行max操作;p∈(0,1)
H
×
W
为前景分割结果,是所有像素点为前景的概率集合,其范围为[0,1],0表示背景,1表示前景,H和W分别表示图像的高和宽;b∈(0,1)
H
×
W
表示由边界框生成的粗糙掩码即边界框标注掩码,边界框内部的掩码值为1,其余位置为0;S3、根据在领域中相似性高的像素点对其标签具有高一致性的特点,本发明提出领域像素一致性损失来增加经步骤S2约束后得到的前景分割结果的连通性,该领域像素一致性损失通过比较边界框内部每个像素点与其领域像素之间包括颜色、纹理在内的特征是否相似,来约束像素点对的前景分割结果要一致,所述领域像素一致性损失表示如下:其中,N表示像素点对个数,e∈E
inbox
表示边界框内部的连接边;表示连接边e的两个端点像素点(i,j)和(l,k)的相似情况,表示不相似,表示相似;y
e
=1表示连接边的两个端点像素点具有相同的标签结果;P(y
e
=1)表示y
e
=1的前景预测...

【专利技术属性】
技术研发人员:龙建武刘东杨诚鑫任岩曾子秦
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1