一种基于自适应伪标签纠正的半监督语义分割方法技术

技术编号：36812930 阅读：21 留言：0更新日期：2023-03-09 00:56

本发明专利技术公开了一种基于自适应伪标签纠正的半监督语义分割方法，包括以下步骤：选取GTA5数据集构建源域，选取Cityscapes数据集构建目标域；输入源域图像到深度卷积神经网络中训练得到预训练的语义分割模型；基于目标图像生成的预测概率矩阵使用信息熵和密度聚类算法构建不确定性区域的选择策略；构建自适应伪标签纠正策略得到最终伪标签作为监督，训练半监督语义分割模型；输入目标域验证集中的目标图像到训练后的半监督语义分割模型中验证语义分割的性能。本发明专利技术实现了在线更新伪标签，解决了确认偏见问题，缓解了类别不平衡问题，克服了全卷积的缺点，提高了该模型在目标域上的语义分割效果。的语义分割效果。的语义分割效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应伪标签纠正的半监督语义分割方法

[0001]本专利技术属于自监督的域适应语义分割领域，具体涉及一种基于自适应伪标签纠正的半监督语义分割方法。

技术介绍

[0002]语义分割的目标是为图像中的每个像素指定语义级别的标签，被广泛应用于现实世界，如自动驾驶、机器人操作和医学分析等。然而，分割模型的学习在很大程度上依赖具有像素注释的大量数据，而手动注释是耗时而且高成本的。此外，模型在不同数据上的泛化能力也是一个重大的挑战。为了解决上述问题，已经开展了各种研究工作，域适应是一个很有希望的方法。
[0003]最近，自监督训练促进了域适应，使用目标域预测生成的伪标签作为监督训练网络。例如，Cheng等人提出了一种基于双路径学习的域适应语义分割方法，通过两个互补和交互式的单域适配管道对齐源域和目标域，使目标域生成更可靠的伪标签，以自监督训练的方式提高语义分割网络的性能(Yiting Cheng,Fangyun Wei,Jianmin Bao,Dong Chen,Fang Wen,and Wenqiang Zhang.Dual Path L本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自适应伪标签纠正的半监督语义分割方法，其特征在于，包括以下步骤：步骤1、选取GTA5数据集构建源域，选取Cityscapes数据集构建目标域，将目标域中的目标图像划分为训练集和验证集，转入步骤2；步骤2、将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型，转入步骤3；步骤3、将目标域的训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵，使用信息熵和密度聚类算法构建不确定性区域的选择策略，获取目标图像预测概率矩阵中的不确定区域，转入步骤4；步骤4、找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置，在目标图像上的这一位置进行剪切获得不确定区域图像，并放大作为二次目标图像，将二次目标图像输入到预训练的语义分割模型，并根据不确定区域的大小上采样生成二次伪标签与目标图像伪标签融合，构建自适应伪标签纠正策略以获取最终伪标签作为目标图像的监督，以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型；当达到预定的训练次数时，获得训练好的半监督语义分割模型，转入步骤5；步骤5、输入目标域验证集中的目标图像到训练好的半监督语义分割模型生成伪标签验证该网络的语义分割性能。2.根据权利要求1所述的一种基于自适应伪标签纠正的半监督语义分割方法，其特征在于，步骤2中，将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型，如式(1)所示：其中，表示源域图像S∈R
H
×
W
的交叉熵损失，H表示源域图像的高，W表示源域图像的宽，H
×
W表示源域图像上的像素点的总数，C表示分类的类别总数，表示的真实地面标签的第i个像素的热编码，的第i个像素的热编码，表示源域图像的第i个像素属于类别c的预测概率，c∈C。3.根据权利要求2所述的一种基于自适应伪标签纠正的半监督语义分割方法，其特征在于，步骤3中，使用信息熵和密度聚类算法构建不确定性区域的选择策略具体如下：步骤3.1，将目标域训练集中的目标图像T∈R
H
×
W
输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵使用信息熵计算目标图像上的各像素点预测概率的分散程度，当像素点的熵小于熵的阈值时将该像素点作为不确定点，如式(2)、式(3)所示：散程度，当像素点的熵小于熵的阈值时将该像素点作为不确定点，如式(2)、式(3)所示：其中，表示目标图像第i个像素点的熵映射，表示目标图像的第i个像素的预测概率矩阵，X
n
表示第n个不确定点，n∈{1,2,...,N}，N表示不确定点的总数，(x,y)表示目标图像上的不确定点的坐标位置，γ
t
表示第t次迭代时的关于信息熵的最低阈
值，将γ
t
设置为α
t
对应的分位数，即γ
t
＝np.percent(H().flatten(),100
×
(1
‑
α
t
))，H()是目标图像每个像素点的熵映射，α
t
是选取不确定点的比例，其通过线性策略调整，如式(4)所示：其中，α0表示初始选取不确定点的比例并设置为20％，iter表示当前迭代次数，total iter表示预定的迭代次数。步骤3.2，基于选取的不确定点使用密度聚类算法寻找目标图像的预测概率矩阵上的不确定区域T
un
，密度聚类算法输入的样本集为不确定点的集合D＝{X1,X2,...,X
N
}，输入的领域参数为(ε,M)，ε为密度聚类所确定的半径，将样本集中与核心对象距离不大于ε的样本称为ε
‑
领域，M为ε
‑
领域中至少包含的样本数；密度聚类算法的输出为簇划分A＝{A1,A2,...,A
K
}，A表示所有不确定点划分为K簇中的集合，A
K
表示第K簇，如式(5)所示：N
ε
(X
j
)＝{X
i
∈D|D dist(X
i
,X
j
)≤ε}
ꢀꢀꢀꢀ
(5)其中，N
ε
(X
j
)表示ε
‑
领域中包含的样本数，X
i
，X
j
表示核心对象，X
i
与X
j
不同的是X
j
由X
i
密度直达，若X
j
位于X
i
的ε
‑
领域中，且X
i
也是核心对象，则称X
j
由X
i
密度直达,dist(X
i
,X
j
)表示两核心点之间的距离；密度聚类算法根据给定邻域参数(ε,M)找出所有核心对象，先任意选取数据集中的一个核心对象为“种子”，然后以此核心对象为出发点...

【专利技术属性】
技术研发人员：王军，杨宇宇，潘在宇，李玉莲，申政文，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人