一种基于自适应伪标签纠正的半监督语义分割方法技术

技术编号:36812930 阅读:10 留言:0更新日期:2023-03-09 00:56
本发明专利技术公开了一种基于自适应伪标签纠正的半监督语义分割方法,包括以下步骤:选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域;输入源域图像到深度卷积神经网络中训练得到预训练的语义分割模型;基于目标图像生成的预测概率矩阵使用信息熵和密度聚类算法构建不确定性区域的选择策略;构建自适应伪标签纠正策略得到最终伪标签作为监督,训练半监督语义分割模型;输入目标域验证集中的目标图像到训练后的半监督语义分割模型中验证语义分割的性能。本发明专利技术实现了在线更新伪标签,解决了确认偏见问题,缓解了类别不平衡问题,克服了全卷积的缺点,提高了该模型在目标域上的语义分割效果。的语义分割效果。的语义分割效果。

【技术实现步骤摘要】
一种基于自适应伪标签纠正的半监督语义分割方法


[0001]本专利技术属于自监督的域适应语义分割领域,具体涉及一种基于自适应伪标签纠正的半监督语义分割方法。

技术介绍

[0002]语义分割的目标是为图像中的每个像素指定语义级别的标签,被广泛应用于现实世界,如自动驾驶、机器人操作和医学分析等。然而,分割模型的学习在很大程度上依赖具有像素注释的大量数据,而手动注释是耗时而且高成本的。此外,模型在不同数据上的泛化能力也是一个重大的挑战。为了解决上述问题,已经开展了各种研究工作,域适应是一个很有希望的方法。
[0003]最近,自监督训练促进了域适应,使用目标域预测生成的伪标签作为监督训练网络。例如,Cheng等人提出了一种基于双路径学习的域适应语义分割方法,通过两个互补和交互式的单域适配管道对齐源域和目标域,使目标域生成更可靠的伪标签,以自监督训练的方式提高语义分割网络的性能(Yiting Cheng,Fangyun Wei,Jianmin Bao,Dong Chen,Fang Wen,and Wenqiang Zhang.Dual Path Learning for Domainad Aptation of Semantic Segmentation.
[0004]InICCV,9082

9091,2021)。Zheng等人提出了一种通过不确定性估计矫正伪标签学习的一种域适应语义分割方法,通过预测方差对不确定性建模,将不确定性纳入优化目标提高语义分割的性能(Zhengdong Zheng and Yi Yang.Rectifying Pseudo Label Learning Via Uncertainty Estimation for Domain Adaptive Semantic Segmentation.In INTERNATIONAL JOURNAL OF COMPUTER VISION,129(4):1106

1120,2021)。然而,这些语义分割模型在训练的过程中会逐渐产生对主导类有偏见的伪标签,目前的自适应模型大多更关注置信度高的伪标签,丢弃置信度低的伪标签,使错误不可逆转,因此语义分割网络在自监督训练的整个训练过程中可能永远无法学习某些像素,造成一种确认偏见。
[0005]为了充分利用未标记的目标图像数据,每一个像素都应该得到适当的利用。Wang等人提出了一种使用不可靠伪标签的半监督语义分割方法,通过预测熵分离可靠像素和不可靠像素,将每个不可靠像素推送到由负样本组成的类别队列中,并设法用所有候选像素训练模型(Yuchao Wang,Haochen Wang,Yujun Shen,Jingjing Fei,Wei Li,Guoqiang Jin,Liwei Wu,Rui Zhao,Xinyi Le.Semi

Supervised Semantic Segmentation Using Unerliable Pseudo

Label.In CVPR,4248

4257,2022)。虽然该方法有充分利用未标记的数据,但没有考虑下采样和上采样对图像特征级之间细节信息的影响,且在对比学习的过程中计算量也非常大。因此,基于半监督的域适应语义分割的算法还需要进一步研究,算法性能还有待提高。

技术实现思路

[0006]本专利技术的目的在于提供一种基于自适应伪标签纠正的半监督语义分割方法,基于目标图像生成的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域选择策略和自适应伪标签纠正策略实现在线纠正目标图像伪标签。本专利技术通过在线纠正目标图像伪标签充分利用未标记的目标图像数据的像素点,避免了过度拟合不正确的伪标签,解决了语义分割模型在训练中对主导类产生确认偏见问题;通过提高不确定区域图像的分辨率再次进行分类预测,充分考虑了目标图像之间的细节信息丢失问题,缓解了类别不平衡问题同时克服了全卷积的缺点,整体提高了半监督语义分割模型的分类性能和在目标域上的泛化能力。
[0007]实现本专利技术目的的技术解决方案为:一种基于自适应伪标签纠正的半监督语义分割方法,包括以下步骤:
[0008]步骤1、选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域,将目标域中的目标图像划分为训练集和验证集,转入步骤2。
[0009]步骤2、将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,转入步骤3。
[0010]步骤3、将目标域的训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域的选择策略,获取目标图像预测概率矩阵中的不确定区域,转入步骤4。
[0011]步骤4、找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切获得不确定区域图像,并放大作为二次目标图像,将二次目标图像输入到预训练的语义分割模型,并根据不确定区域的大小上采样生成二次伪标签与目标图像伪标签融合,构建自适应伪标签纠正策略以获取最终伪标签作为目标图像的监督,以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型;当达到预定的训练次数时,获得训练好的半监督语义分割模型,转入步骤5。
[0012]步骤5、输入目标域验证集中的目标图像到训练好的半监督语义分割模型生成伪标签验证该网络的语义分割性能。
[0013]与现有技术相比,本专利技术的优点在于:
[0014]1)相比现有的语义分割方法,一是大多数语义分割方法只考虑置信度高的标签,忽略了置信度低的标签,导致过度拟合不正确的伪标签,使错误不可逆转从而造成确认偏见的问题;二是大多数语义分割方法使用全卷积对图像进行编码解码,在编码的过程中降低了特征图的分辨率,意味着丢失了一些细节信息,解码的过程中要求编码模型必须十分强大才能很好的还原图像信息,意味着在编码的过程需要更大的模型和计算量。为解决上述两方面的问题,本专利技术提出了不确定区域选择策略和自适应伪标签纠正策略,提高了半监督语义分割模型的分类性能和在目标域上的泛化能力。
[0015]2)本专利技术提出的基于信息熵和密度聚类的不确定区域选择策略,改变了只使用置信度高的伪标签作为监督的传统训练方式,该方法不仅使用了目标图像上置信度高的标签也充分考虑了置信度低的标签,使目标图像上的每一个像素点都能够的得到充分利用;
[0016]3)本专利技术提出的自适应伪标签纠正策略,一方面实现了在线纠正目标图像伪标签,在语义分割模型训练过程中避免了过度拟合不正确的伪标签,防止错误的不可逆,解决
了语义分割模型在训练中对主导类产生确认偏见问题,提高了语义分割模型的性能;另一方面采用了双线性插值等比例放大低分辨率的不确定区域图像,不仅提高了不确定区域图像的分辨率而且相当于扩充了包含有困难分类样本的目标图像,避免了下采样导致的不确定区域图像特征级之间细节信息的丢失也缓解了目标域训练集类别不平衡的问题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,包括以下步骤:步骤1、选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域,将目标域中的目标图像划分为训练集和验证集,转入步骤2;步骤2、将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,转入步骤3;步骤3、将目标域的训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域的选择策略,获取目标图像预测概率矩阵中的不确定区域,转入步骤4;步骤4、找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切获得不确定区域图像,并放大作为二次目标图像,将二次目标图像输入到预训练的语义分割模型,并根据不确定区域的大小上采样生成二次伪标签与目标图像伪标签融合,构建自适应伪标签纠正策略以获取最终伪标签作为目标图像的监督,以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型;当达到预定的训练次数时,获得训练好的半监督语义分割模型,转入步骤5;步骤5、输入目标域验证集中的目标图像到训练好的半监督语义分割模型生成伪标签验证该网络的语义分割性能。2.根据权利要求1所述的一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,步骤2中,将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,如式(1)所示:其中,表示源域图像S∈R
H
×
W
的交叉熵损失,H表示源域图像的高,W表示源域图像的宽,H
×
W表示源域图像上的像素点的总数,C表示分类的类别总数,表示的真实地面标签的第i个像素的热编码,的第i个像素的热编码,表示源域图像的第i个像素属于类别c的预测概率,c∈C。3.根据权利要求2所述的一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,步骤3中,使用信息熵和密度聚类算法构建不确定性区域的选择策略具体如下:步骤3.1,将目标域训练集中的目标图像T∈R
H
×
W
输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵使用信息熵计算目标图像上的各像素点预测概率的分散程度,当像素点的熵小于熵的阈值时将该像素点作为不确定点,如式(2)、式(3)所示:散程度,当像素点的熵小于熵的阈值时将该像素点作为不确定点,如式(2)、式(3)所示:其中,表示目标图像第i个像素点的熵映射,表示目标图像的第i个像素的预测概率矩阵,X
n
表示第n个不确定点,n∈{1,2,...,N},N表示不确定点的总数,(x,y)表示目标图像上的不确定点的坐标位置,γ
t
表示第t次迭代时的关于信息熵的最低阈
值,将γ
t
设置为α
t
对应的分位数,即γ
t
=np.percent(H().flatten(),100
×
(1

α
t
)),H()是目标图像每个像素点的熵映射,α
t
是选取不确定点的比例,其通过线性策略调整,如式(4)所示:其中,α0表示初始选取不确定点的比例并设置为20%,iter表示当前迭代次数,total iter表示预定的迭代次数。步骤3.2,基于选取的不确定点使用密度聚类算法寻找目标图像的预测概率矩阵上的不确定区域T
un
,密度聚类算法输入的样本集为不确定点的集合D={X1,X2,...,X
N
},输入的领域参数为(ε,M),ε为密度聚类所确定的半径,将样本集中与核心对象距离不大于ε的样本称为ε

领域,M为ε

领域中至少包含的样本数;密度聚类算法的输出为簇划分A={A1,A2,...,A
K
},A表示所有不确定点划分为K簇中的集合,A
K
表示第K簇,如式(5)所示:N
ε
(X
j
)={X
i
∈D|D dist(X
i
,X
j
)≤ε}
ꢀꢀꢀꢀ
(5)其中,N
ε
(X
j
)表示ε

领域中包含的样本数,X
i
,X
j
表示核心对象,X
i
与X
j
不同的是X
j
由X
i
密度直达,若X
j
位于X
i
的ε

领域中,且X
i
也是核心对象,则称X
j
由X
i
密度直达,dist(X
i
,X
j
)表示两核心点之间的距离;密度聚类算法根据给定邻域参数(ε,M)找出所有核心对象,先任意选取数据集中的一个核心对象为“种子”,然后以此核心对象为出发点...

【专利技术属性】
技术研发人员:王军杨宇宇潘在宇李玉莲申政文
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1