当前位置: 首页 > 专利查询>武汉大学专利>正文

无监督域适应语义分割方法、装置、设备及可读存储介质制造方法及图纸

技术编号:38105327 阅读:8 留言:0更新日期:2023-07-06 09:26
本发明专利技术提供一种无监督域适应语义分割方法、装置、设备及可读存储介质。该方法包括:计算源域图像的标签与学生网络输出的第一预测标签之间的交叉熵损失;计算融合图像的伪标签与学生网络输出的第二预测标签之间的一致性损失;计算学生网络的深度损失;计算交叉熵损失、一致性损失以及深度损失的梯度,反传梯度更新学生网络的参数,并使用指数滑动平均法更新教师网络的参数;循环更新学生网络和教师网络,当循环次数达到预设次数时,采用最新的教师网络对无标注的目标域图像进行语义分割预测,得到无标注的目标域图像的伪标签。通过本发明专利技术,在保证GPU合理占用内存的同时,得到包含细节分割的分割结果,提高了目标域中的分割性能。能。能。

【技术实现步骤摘要】
无监督域适应语义分割方法、装置、设备及可读存储介质


[0001]本专利技术涉及计算机视觉
,尤其涉及一种无监督域适应语义分割方法、装置、设备及可读存储介质。

技术介绍

[0002]语义分割是一个非常广泛的研究领域,其主要是为图像中的每个像素分配与语义内容相对应的标签。
[0003]训练一个表现良好的深度语义分割模型通常需要大量的有着像素级标签的数据,目前,主要使用虚拟的合成图像作为源域来训练分割模型,然而,由于合成图像和真实图像之间的外观差异,也就是所谓的域差异,仅在合成图像上训练的模型在真实图像上的泛化性通常很差,为了减轻源域和目标域之间的领域差距,学者们提出了各种无监督领域自适应的方法。但是用于语义分割的无监督领域自适应方法通常需要大量GPU内存,而以往的大多数方法都只对缩小比例的图像进行操作,导致细小的类别无法精确定位轮廓,从而使得无标注的目标域无法得到精准的细节分割。因此,需要设计一种能够在无监督域适应分割过程中,保证GPU合理占用内存的同时,融合上下文信息和物体细节信息的方法。

技术实现思路

[0004]本专利技术的主要目的在于提供一种无监督域适应语义分割方法、装置、设备及可读存储介质,旨在保证GPU合理占用内存的同时,得到包含细节分割的分割结果。
[0005]第一方面,本专利技术提供一种无监督域适应语义分割方法,所述无监督域适应语义分割方法包括:
[0006]将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签,其中,所述第一预测标签基于包含长依赖的上下文信息语义预测图的标签与包含细节分割的语义预测图的标签进行融合得到;
[0007]计算源域图像的标签与所述第一预测标签之间的交叉熵损失;
[0008]对预处理后的源域图像和预处理后的目标域图像进行融合,将融合图像输入学生网络,得到学生网络输出的第二预测标签;
[0009]计算融合图像的伪标签与所述第二预测标签之间的一致性损失;
[0010]计算源域图像对应的第一深度信息伪标签与所述第一预测标签之间的第一深度损失,或,计算目标域图像对应的第二深度信息伪标签与所述第二预测标签之间的第二深度损失;
[0011]计算交叉熵损失、一致性损失以及第一深度损失或第二深度损失的梯度,反传梯度更新学生网络的参数,并使用指数滑动平均法更新教师网络的参数;
[0012]以新的预处理后的源域图像作为预处理后的源域图像,以新的预处理后的目标域图像作为预处理后的目标域图像,返回执行将预处理后的源域图像输入学生网络,计算学生网络输出的第一预测标签与源域图像的标签之间的交叉熵损失的步骤;
[0013]当循环次数达到预设次数时,采用最新的教师网络对无标注的目标域图像进行语义分割预测,得到无标注的目标域图像的伪标签。
[0014]可选的,在所述将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签的步骤之前,包括:
[0015]获取源域图像以及目标域图像;
[0016]对所述源域图像和所述目标域图像进行剪裁、翻转、颜色抖动以及高斯模糊处理,得到预处理后的源域图像以及预处理后的目标域图像;
[0017]基于源域图像以及目标域图像训练深度估计模型,得到训练完成的深度估计模型;
[0018]通过训练完成的深度估计模型得到源域图像对应的第一深度信息伪标签以及目标域图像对应的第二深度信息伪标签。
[0019]可选的,所述将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签的步骤,包括:
[0020]将预处理后的源域图像输入学生网络,学生网络中的编码器对所述预处理后的源域图像进行深层特征提取,得到不同尺度的骨干特征f
i
,其中,i为正整数;
[0021]将不同尺度的骨干特征f
i
输入第一解码器进行尺度融合,并做出预测,得到包含长依赖的上下文信息语义预测图的标签
[0022]将不同尺度的骨干特征f
i
分别输入两个瓶颈层,得到深度信息以及语义信息其中,所述瓶颈层包括用于降维的1
×
1的卷积、一个3
×
3的卷积和用于恢复维度1
×
1的卷积;
[0023]通过通道注意力机制对深度信息的特征进行提取,并与语义信息进行融合,得到融合了深度特征的语义信息,其中,融合公式如下:
[0024][0025]代表第i个尺度上融合了深度特征的语义信息,代表第i个尺度上的语义信息,代表第i个尺度上的深度信息,

表示逐元素的矩阵乘法,表示线性层,σ是归一化的sigmoid函数,W是可学习的参数,和分别代表两个线性层的参数;
[0026]将融合了深度特征的语义信息输入第二解码器,得到包含细节分割的语义预测图的标签
[0027]通过通道注意力机制将包含长依赖的上下文信息语义预测图的标签与包含细节分割的语义预测图的标签进行融合,得到第一预测标签。
[0028]可选的,所述计算源域图像的标签与所述第一预测标签之间的交叉熵损失的步骤,包括:
[0029]通过第一损失函数公式,计算得到学生网络输出的第一预测标签与源域图像的标签之间的交叉熵损失,其中,第一损失函数公式如下:
[0030][0031]其中,代表源域图像的标签,代表第一预测标签,h,w,c分别是高度、宽度以及通道数,C代表通道数,代表交叉熵损失。
[0032]可选的,所述融合图像的伪标签通过如下方式获得:
[0033]将目标域图像输入教师网络,得到的分割预测结果作为目标域图像的伪标签;
[0034]将源域图像的标签和目标域图像的伪标签以相同的蒙版混和,得到融合图像的伪标签。
[0035]可选的,所述计算源域图像对应的第一深度信息伪标签与所述第一预测标签之间的第一深度损失的步骤,包括:
[0036]利用源域图像对应的第一深度信息伪标签减去所述第一预测标签,得到差值e
z_1

[0037]将所述差值e
z_1
代入第二损失函数公式,得到源域图像对应的第一深度信息伪标签与所述第一预测标签之间的第一深度损失,其中,第二损失函数公式如下:
[0038]为常数。
[0039]可选的,所述使用指数滑动平均法更新教师网络的参数的步骤,包括:
[0040]将学生网络更新后的参数以及教师网络更新前的参数代入预设公式θ'
t
=α
·
θ'
t
‑1+(1

α)
·
θ,得到教师网络更新后的参数,其中,θ'
t
代表教师网络更新后的参数,θ'
t
‑1代表教师网络更新前的参数,θ代表学生网络更新后的参数,α为加权系数,0<α<1。
[0041]第二方面,本专利技术还提供一种无监督域适应语义分割装置,所述无监督域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督域适应语义分割方法,其特征在于,所述无监督域适应语义分割方法包括:将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签,其中,所述第一预测标签基于包含长依赖的上下文信息语义预测图的标签与包含细节分割的语义预测图的标签进行融合得到;计算源域图像的标签与所述第一预测标签之间的交叉熵损失;对预处理后的源域图像和预处理后的目标域图像进行融合,将融合图像输入学生网络,得到学生网络输出的第二预测标签;计算融合图像的伪标签与所述第二预测标签之间的一致性损失;计算源域图像对应的第一深度信息伪标签与所述第一预测标签之间的第一深度损失,或,计算目标域图像对应的第二深度信息伪标签与所述第二预测标签之间的第二深度损失;计算交叉熵损失、一致性损失以及第一深度损失或第二深度损失的梯度,反传梯度更新学生网络的参数,并使用指数滑动平均法更新教师网络的参数;以新的预处理后的源域图像作为预处理后的源域图像,以新的预处理后的目标域图像作为预处理后的目标域图像,返回执行将预处理后的源域图像输入学生网络,计算学生网络输出的第一预测标签与源域图像的标签之间的交叉熵损失的步骤;当循环次数达到预设次数时,采用最新的教师网络对无标注的目标域图像进行语义分割预测,得到无标注的目标域图像的伪标签。2.如权利要求1所述的无监督域适应语义分割方法,其特征在于,在所述将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签的步骤之前,包括:获取源域图像以及目标域图像;对所述源域图像和所述目标域图像进行剪裁、翻转、颜色抖动以及高斯模糊处理,得到预处理后的源域图像以及预处理后的目标域图像;基于源域图像以及目标域图像训练深度估计模型,得到训练完成的深度估计模型;通过训练完成的深度估计模型得到源域图像对应的第一深度信息伪标签以及目标域图像对应的第二深度信息伪标签。3.如权利要求1所述的无监督域适应语义分割方法,其特征在于,所述将预处理后的源域图像输入学生网络,得到学生网络输出的第一预测标签的步骤,包括:将预处理后的源域图像输入学生网络,学生网络中的编码器对所述预处理后的源域图像进行深层特征提取,得到不同尺度的骨干特征f
i
,其中,i为正整数;将不同尺度的骨干特征f
i
输入第一解码器进行尺度融合,并做出预测,得到包含长依赖的上下文信息语义预测图的标签将不同尺度的骨干特征f
i
分别输入两个瓶颈层,得到深度信息以及语义信息其中,所述瓶颈层包括用于降维的1
×
1的卷积、一个3
×
3的卷积和用于恢复维度1
×
1的卷积;通过通道注意力机制对深度信息的特征进行提取,并与语义信息进行融合,得到融合了深度特征的语义信息,其中,融合公式如下:
代表第i个尺度上融合了深度特征的语义信息,代表第i个尺度上的语义信息,代表第i个尺度上的深度信息,

表示逐元素的矩阵乘法,表示线性层,σ是归一化的sigmoid函数,W是可学习的参数,和分别代表两个线性层的参数;将融合了深度特征的语义信息输入第二解码器,得到包含细节分割的语义预测图的标签通过通道注意力机制将包含长依赖的上下文信息语义预测图的标签与包含细节分割的语义预测图的标签进行融合,得到第一预测标签。4.如权利要求1所述的无监督域适应语义分割方法,其特征在于,所述计算源域图像的标签与所述第一预测标签之间的交叉熵损失的步骤,包括:通过第一损失函数公式,计算得到学生网络输出的第一预测标签与源域图像的标签之间的交叉熵损失,其中,第一损失函数公式如下:其中,代表源域图像的标签,代表第一预测标签,h,...

【专利技术属性】
技术研发人员:张乐飞邢聪颖
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1