一种基于细粒度特征分组的无监督语义分割方法技术

技术编号:38523055 阅读:9 留言:0更新日期:2023-08-19 17:01
本发明专利技术公开了一种基于细粒度特征分组的无监督语义分割方法,一方面使用胶囊网络对卷积神经网络提取到的特征进行提炼,保留重要信息,减少无关信息的干扰,提高整体的分割效果。另一方面使用超像素分割对图片进行预分割,并用这些预分割的区域边界,指导后续像素特征进行细粒度分组,解决边界模糊时分割不好的问题。本发明专利技术根据分割边界将后续高级语义信息进行细粒度特征分组,作为Capsule层的输入,能够减少胶囊的数量;在每个超像素块内进行中心差分,能够突出像素块中的分割边缘的细节信息;将差分图像和多尺度特征图进行融合,共同作为胶囊层的输入能够提高网络对分割边界的表达能力。能力。能力。

【技术实现步骤摘要】
一种基于细粒度特征分组的无监督语义分割方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于细粒度特征分组的无监督语义分割方法。

技术介绍

[0002]图像语义分割任务是计算机视觉领域中重要的组成部分。它旨在利用人工智能技术,对图像中的每个像素点进行分类,从而将图像中感兴趣的区域凸显出来。它被广泛应用到人脸识别、车牌识别、卫星图像分析、自动驾驶、人机交互、视频处理等场景。常用的语义分割方法大多是有监督的,需要事先对图像中的目标区域进行像素级别的标注,而通常训练所需的数据量较多,这往往需要耗费大量的人力和时间。同时,由于标注的类别是固定的,导致它学习到的模型仅限于几个标记的类别,不能泛化到未知的类别。无监督语义分割方法能够很好的解决这个问题,它无需数据标注既能实现端到端的语义分割。但是无监督语义分割的分割效果却远不如有监督语义分割,如何提高无监督语义分割的准确率成为了一个重要的研究方向。
[0003]现有的已公开的无监督语义分割方法主要的检测思路有以下几种:公开号为CN202110600887的中国专利申请(下称专利1)中提供了一种面向大规模数据的无监督语义分割方法及系统。该方案首先获取待分割的多张图像;然后将获取的图像输入到分割网络模型中,得到语义分割结果;其中,分割网络模型采用无监督方式训练,训练过程为:对获取的训练图像进行基于像素注意力机制的表征学习,得到图像表征结果;根据得到的图像表征结果进行聚类,得到多个伪标签;根据得到的伪标签进行分割网络模型的训练;该专利通过像素注意力机制和像素对齐机制,使用基于无监督方法生成的前景显著性信息监督像素注意力机制的学习,提高了语义分割的效率和精度。
[0004]论文《PiCIE:Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering》Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2021,pp.16794

16804(下称论文1)提出了一种在聚类中使用不变性和等变性的无监督语义分割方法,将光度不变性和几何等变性融入深度卷积框架来学习高级语义概念,且无需超参数和预处理。算法流程包括:首先对于输入的数据集,进行光度不变、几何等变以及卷积神经网络来获取图像每个像素的特征,得到特征向量,然后用k

means对特征向量进行聚类,得到K个聚类中心和每个像素对应的标签。对所有训练图像进行聚类完成后,所有像素都有了对应的伪标签,最后使用伪标签去监督训练,最终得到一个稳定的结果。
[0005]无监督语义分割属于像素级的分类问题,以往的方法在处理方式上很大程度上依赖于分割目标语义的连贯性,并且对特征进行聚类所采用的方法适用于单标签和以对象为中心的图像,对多标签、以场景为中心或者目标物体较小的图像分割效果不好。同时,整个无监督的训练过程会由分类网络和聚类算法同时参与迭代,如果没有有效的约束条件和训练策略,训练效果很难保证。
[0006]常用的无监督语义分割方法中,端到端的方法常常通过对图像增强视图中像素的聚类分配施加一致性来学习聚类功能。然而,这些方法倾向于锁定低级图像线索,如颜色或纹理,而且聚类强烈依赖于网络的初始化,这都会为网络的训练造成难度。而另外一种自下而上的方法,利用边缘检测或显著性估计等低级或中级视觉先验来寻找可能共享相同语义的图像区域,并使用图像区域来学习捕获语义信息的像素嵌入。这种方式中,图像区域充当正则化器,消除了分割对网络初始化的依赖。随后通过 K

means等对像素嵌入进行聚类以获得图像分割。虽然自下而上的方法获得了更好的结果,但它们也存在一些缺点:手工制作的先验(例如边缘或显著性)对像素进行分组的依赖限制了它们的使用。例如,显著性估计仅适用于以对象为中心的图像。此外,一些作品需要标记来识别适当的图像区域。
[0007]专利1中使用像素注意力机制和SwAV对图像进行像素级别的表征学习和聚类,并用得到的所有像素的伪标签指导分割模型(改进的deeplabv3++)进行训练。这种采用对比学习学习像素级表征的方式,虽然比学习图像级表征更具有针对性,但是在端到端的学习中,直接进行像素级别的聚类很容易只关注低级的图像特征(如颜色、对比度等),而忽略了更高级的语义信息。
[0008]论文1中基于光度不变性和几何等变性对图像进行变换。光度不变性是指当一幅图像的光照强度发生轻微的抖动时在同一位置的像素应该被划分得到相同的标签,而不应该改变,即将每一个像素点进行两种不同的光度变换后得到的特征表示应当相同;几何等变性是指当一张图片发生放大、缩小时,物体的标签结果应当是原图像处理后的放大、缩小版本。通过这种不变和等变的相互约束,并使用卷进神经网络进行特征表示,能够提高整体的分割效果。这种方案中使用resnet

18进行特征表示,由于卷积神经网络对光照、位置等微小的变化不敏感,所以需要事先进行光照和几何变换来构造等变性对聚类进行约束。另外卷积神经网络逐层提取特征的方式,随着网络的加深特征的意义不太明确,不利于后续的聚类。

技术实现思路

[0009]为解决上述问题,本专利技术公开了一种基于细粒度特征分组的无监督语义分割方法,一方面使用胶囊网络对卷积神经网络提取到的特征进行提炼,保留重要信息,减少无关信息的干扰,提高整体的分割效果。另一方面使用超像素分割对图片进行预分割,并用这些预分割的区域边界,指导后续像素特征进行细粒度分组,解决边界模糊时分割不好的问题。
[0010]胶囊网络中的“胶囊”代表图像中特定实体的各种特征,比如位置、大小、方向、速度、色调、纹理等等,作为一个单独的逻辑单元存在。然后,使用一个协议路由算法,当胶囊将自己学习并预测到的数据传递给更高层次的胶囊时,如果预测一致,更高级别的胶囊变得活跃,这个过程就被称作动态路由。随着路由机制的不断迭代,就能够将各种胶囊训练成学习不同思维的单元。同时,胶囊网络要求模型在胶囊中学习特征变量,最大化保留那些有价值的信息,因此,将其作为图像特征表示的网络相比于CNN,得到的像素特征更容易聚类。
[0011]为达到上述目的,本专利技术的技术方案如下:一种基于细粒度特征分组的无监督语义分割方法,包括如下步骤:步骤1,获取待分割的图像;步骤2,将图像输入到无监督语义分割模型中,获取语义分割结果,具体包括如下
步骤:步骤2

1,特征图提取,包括如下过程:无监督语义分割模型中的Encoder模块采用带有ASPP的DCNN对图像进行多尺度特征提取,得到多尺度特征图;原始图像经过7x7卷积后得到低级语义特征图;步骤2

2,利用超像素分割作为先验,FFG

Capsule模块对特征图进行细粒度特征分组和融合;包括如下过程:使用slic方法对原始输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于细粒度特征分组的无监督语义分割方法,其特征在于,包括如下步骤:步骤1,获取待分割的图像;步骤2,将图像输入到无监督语义分割模型中,获取语义分割结果,具体包括如下步骤:步骤2

1,特征图提取,包括如下过程:无监督语义分割模型中的Encoder模块采用带有ASPP的DCNN对图像进行多尺度特征提取,得到多尺度特征图;原始图像经过7x7卷积后得到低级语义特征图;步骤2

2,利用超像素分割作为先验,FFG

Capsule模块对特征图进行细粒度特征分组和融合;包括如下过程:使用slic方法对原始输入图像进行超像素分割,获取基于低级语义信息的分割边界;将分割边界作为先验,根据超像素块的分割边界,将低级语义特征图进行细粒度特征分组,每个特征块分成一组;在特征块内进行中心差分处理,得到中心差分图;将多尺度特征图根据超像素块的分割边界进行特征分组;将经过特征分组的多尺度特征图与中心差分图一起输入Capsule层进行特征筛选,获取语义特征图;步骤2

3,将FFG

Ca...

【专利技术属性】
技术研发人员:于潇丹
申请(专利权)人:南京亚信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1