一种基于单一像素标注的图像语义分割方法及系统技术方案

技术编号：24458684 阅读：48 留言：0更新日期：2020-06-10 16:19

本发明专利技术提供一种基于单一像素标注的图像语义分割方法及系统，该方法包括：基于每个类别单一像素的标签，利用表观特征和语义特征，分别编码每个类别；基于每个类别的特征表达，计算训练图像每个超像素与各类别的相似度；利用图像上下文信息和驾驶场景位置先验，更新相似度计算结果，生成初始监督种子；利用初始监督种子，训练语义分割网络，学习不同实例的同物性特征，更新每个超像素与各类别的相似度；迭代地执行初始监督种子生成和相似度更新过程，直至收敛；保存收敛后的语义分割网络。本发明专利技术为驾驶场景下的弱监督语义分割任务提供了一种可行策略，在自动驾驶等场景下具有广泛应用前景。

A method and system of image semantic segmentation based on single pixel annotation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单一像素标注的图像语义分割方法及系统
本专利技术涉及模式识别
，特别是指一种基于单一像素标注的图像语义分割方法及系统。
技术介绍
在人工智能计算机视觉领域，图像语义分割是一个重要的研究领域，该任务旨在为图像提供像素级别的类别标注，实现图像理解过程。近年来，针对驾驶场景的图像理解任务得到了国内外许多学者的关注和大量研究，并在全监督条件下，取得了越来越有意的性能。这些方法依赖大量的高精度的像素级手工标签，实现深度神经网络的训练过程。然而，这些方法往往依赖大量的数据标注，且模型的性能受到采集数据的局限性的影响，往往不具备足够高的泛化性能。在面向新的场景时，需要采集新的数据并进行标注，这也限制了这种方法在驾驶场景的应用。另一方面，弱监督学习提供了一种轻量化的方法，在训练语义分割网络模型时，不需要提供大量的像素级别图像标注，因此在以自动驾驶为代表的众多领域中都有着广泛的应用前景。现有的弱监督标注方法主要包括了提供给图像中每个类别图像级、包围盒级标签等方式，这些标注形式为解决只包含少量类别物体的自然场景图像中的语义分割任务提供了可解条件。然而，在面向包含了大量类别的复杂驾驶场景时，已有的弱监督标注方式不仅不足够轻量化，还无法为每个类别的学习提供帮助。因此，提供一种面向复杂驾驶场景的、更轻量且合理的弱监督标注方式具有重要意义。在弱监督条件和复杂的驾驶场景的约束下，算法的设计和训练难度都显著提升。这里，如何实现对每个类别的最适特征编码，以及如何利用驾驶场景下各类别目标位置先验信息和同物性特征实现...

【技术保护点】
1.一种基于单一像素标注的图像语义分割方法，其特征在于，包括：/n步骤一、基于每个类别单一像素的标签，利用表观特征和语义特征，分别编码每个类别，建立每个类别的特征表达；/n步骤二、对训练图像进行超像素划分，并基于每个类别的特征表达，计算训练图像每个超像素与各个类别的相似度；/n步骤三、以每个超像素与各个类别的相似度作为初始条件，利用图像上下文信息和驾驶场景位置先验，更新相似度计算结果，生成初始监督种子；/n步骤四、利用所述初始监督种子，训练语义分割网络，学习不同实例的同物性特征，提供图像语义分割结果，用于更新每个超像素与各个类别的相似度；/n步骤五、迭代地执行步骤三至步骤四，直至语义分割网络的语义分割性能收敛；保存最终一次训练得到的语义分割网络，用于对新的图像的语义分割。/n

【技术特征摘要】
1.一种基于单一像素标注的图像语义分割方法，其特征在于，包括：
步骤一、基于每个类别单一像素的标签，利用表观特征和语义特征，分别编码每个类别，建立每个类别的特征表达；
步骤二、对训练图像进行超像素划分，并基于每个类别的特征表达，计算训练图像每个超像素与各个类别的相似度；
步骤三、以每个超像素与各个类别的相似度作为初始条件，利用图像上下文信息和驾驶场景位置先验，更新相似度计算结果，生成初始监督种子；
步骤四、利用所述初始监督种子，训练语义分割网络，学习不同实例的同物性特征，提供图像语义分割结果，用于更新每个超像素与各个类别的相似度；
步骤五、迭代地执行步骤三至步骤四，直至语义分割网络的语义分割性能收敛；保存最终一次训练得到的语义分割网络，用于对新的图像的语义分割。

2.如权利要求1所述的基于单一像素标注的图像语义分割方法，其特征在于，每个类别单一像素的标签的标注方式为：对于每个类别，从训练图像集中仅选取一张包含其的训练图像，并只标注一个属于该类别的像素。

3.如权利要求1所述的基于单一像素标注的图像语义分割方法，其特征在于，所述类别的属性包括物体和场景；其中，对类别进行编码时，对于物体类别通过语义特征来表示；对于场景类别通过表观特征来表示。

4.如权利要求1所述的基于单一像素标注的图像语义分割方法，其特征在于，所述语义特征采用先将待处理图像切分为预设数量的碎片，再对每个碎片基于预训练的类别激活映射网络模型进行特征提取，最后得到与待处理图像全图等大的预设维度的语义特征图，并将每一种物体表示为一个语义特征向量；
所述表观特征采用将颜色特征和纹理特征分别编码为96维和32维的特征，并将每一种场景表示为若干组颜色特征和纹理特征。

5.如权利要求4所述的基于单一像素标注的图像语义分割方法，其特征在于，当类别的属性为物体时，类别的编码过程包括：
将待处理图像切分为15个相等大小的碎片，将每个碎片经过映射网络模型，编码成16×16×1000维的特征图，对于1000维的特征维度，将其归一化；对于图像中每个像素，计算该像素坐标与15个碎片中心坐标的距离，用与其最近的碎片中对应该像素的位置上的1000维特征作为该像素的语义热图响应；
利用超像素分割方法将待处理图像分为多个超像素，对于每个超像素，用其包含的所有像素的语义热图响应的平均值，作为该超像素的语义特征
对于被标注类别的像素，将其对应的1000维特征向量作为该类别的初始的类中心，记为计算和的相似度；
将与相似度最大的前1％的超像素选取为集合Ωg；
用E-M方法交替更新和Ωg，直到稳定；
记录最终得到的作为该物体类别的编码特征。

6.如权利要求4所述的基于单一像素标注的图像语义分割方法，其特征在于，当类别的属性为场景时，类别的编码过程包括：
计算待处理图像的三通道颜色特征和局部二值化模式编码的纹理特征，并进行归一化；利用超像素分割的方法将待处理图像分为多个超像素；对于每个超像素，在每个特征通道中，将[0,1]划分为32个相等的区间，对其包含像素的值进行统计；由此，每个超像素将得到96维的颜色特征和32维的纹理特征；
计算待处理图像的边缘特征和显著性特征，计算两两超像素对的相似性；
记录两两超像素之间的边缘距离度量；
确定包含了标注类别像素的超像素，并计算图中其他超像素与该超像素的相似度，记录所有与之相似度大于0.5的超像素；
对于记录的超像素，计算两两超像素的颜色特征相似度和纹理特征相似度，记录二者的乘积，作为该超像素对的表观特征相似度；以0.5为阈值，将这些超像素分为G个组，每个组内超像素的平均特征作为该组的类...

【专利技术属性】
技术研发人员：马惠敏，李熹，储华珍，陈衍先，易生，
申请(专利权)人：北京科技大学，清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人