当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于通道特征的语义分割自适应知识蒸馏方法技术

技术编号:35995314 阅读:22 留言:0更新日期:2022-12-17 23:11
本发明专利技术涉及一种基于通道特征的语义分割自适应知识蒸馏方法,首先获取教师分割模型和学生分割模型;再分别提取教师分割模型和学生分割模型主干网络的各层知识,进行自适应特征蒸馏;然后分别计算教师和学生特征图的通道相关性矩阵;对教师分割模型和学生分割模型最终输出的标签预测值特征图进行逐通道归一化处理;最后计算模型训练最终的总损失,对学生模型进行训练。本发明专利技术通过自注意力机制自动学习主干网络各层的相关性,并且充分利用了模型的通道知识,通过学习教师模型通道的相关性与显著性特征,减少了学生模型对于教师模型冗余知识的学习,有效提高了学生模型的分割精度。有效提高了学生模型的分割精度。有效提高了学生模型的分割精度。

【技术实现步骤摘要】
一种基于通道特征的语义分割自适应知识蒸馏方法


[0001]本专利技术关于一种知识提取方法,特别是有关于一种基于通道特征的语义分割自适应知识蒸馏方法。

技术介绍

[0002]目前,图像分类、目标检测与语义分割是深度视觉领域的三大主流任务。与简单的图像分类任务不同,语义分割需要实现像素级的分类,其提取的语义及场景知识对于自动驾驶技术或其他视觉任务极其重要,是驾驶安全的底层保障。目前主流的语义分割模型都基于Encoder

Decoder结构,在Encoder阶段使用主干网络对图像进行特征提取,最后在Decoder部分利用提取的特征进行像素级分割。但在实际应用中,为了提高模型精度通常会采用如ResNet101的大型主干特征提取网络。在如PSPNet或DeepLab架构的语义分割模型内,主干特征提取网络占了模型绝大部分的计算量,因此,尽管大型主干网络可以达到不错的精度,但无法满足现实场景中的实时性要求,难以部署应用。基于此原因,针对模型轻量化的研究有着重要意义。
[0003]目前的模型轻量化研究主要分为以下几个方向:1)直接设计轻量化模型,如使用深度可分离卷积的MobileNet以及使用分组卷积与通道重排的ShuffleNet;2)模型剪枝,通常采用稀疏化训练对模型内部的冗余参数进行裁剪,以此减少模型的参数量与计算量;3)模型量化,即将浮点存储(运算)转换为整型存储(运算)的一种模型压缩技术,籍此来降低模型的存储开销并加快模型的推理速度;4)知识蒸馏,此技术通常选择一个效果较好的大模型(教师模型)对小模型(学生模型)进行监督训练,整个系统一般由知识、蒸馏算法和师生架构三部分组成。
[0004]对于语义分割任务的知识蒸馏,目前主要存在以下问题:当前主要的知识蒸馏方法都是针对图像分类任务的,直接将其使用在语义分割任务上效果提升不明显,对于不同结构的学生模型与教师模型,其特征层对应关系也不一样,方法难以通用,目前的知识蒸馏方案一般只注重空间结构方面的信息,而忽略了模型输出通道中包含的丰富信息。
[0005]为解决以上问题,本专利技术提出了一种基于通道特征的语义分割自适应知识蒸馏方法。

技术实现思路

[0006]针对上述问题,一种基于通道特征的语义分割自适应知识蒸馏方法,包括以下步骤:
[0007]S1:选取数据集进行数据增强;
[0008]S2:获取教师分割模型和学生分割模型;
[0009]S3:分别提取教师分割模型和学生分割模型主干网络的各层知识,进行自适应特征蒸馏;
[0010]S4:分别提取教师分割模型和学生分割模型的分割特征,并分别计算教师和学生
特征图的通道相关性矩阵;
[0011]S5:对教师分割模型和学生分割模型最终输出的标签预测值特征图进行逐通道归一化处理;
[0012]S6:计算模型训练最终的总损失,对学生模型进行训练。
[0013]进一步地,步骤S1中数据增强包括随机翻转,翻转角度在

10
°
至10
°

[0014]进一步地,步骤S1中数据增强包括缩放图像。
[0015]进一步地,步骤S2中采用金字塔场景解析网络作为模型分割架构来获取教师分割模型和学生分割模型,其中教师分割模型主干网络为101层的残差网络,学生分割模型主干网络为轻量化网络或者18层的残差网络,教师分割模型和学生分割模型均采用大型可视化数据预训练权重。
[0016]进一步地,步骤S3中自适应蒸馏方法包括以下步骤:
[0017]S31:将教师分割模型主干网络第i层特征图记为F
ti
,学生模型主干部分第j层特征图记为F
sj

[0018]S32:对教师分割模型和学生分割模型主干网络的各层特征图进行逐通道的归一化操作;
[0019]S33:将学生分割模型主干网络的各层特征图投影到教师分割模型主干网络的各层特征图;
[0020]S34:计算学生分割模型主干网络与教师分割模型主干网络各层特征图之间的相关系数α;
[0021]S35:采用KL散度来使学生分割模型的分布趋近于教师分割模型;
[0022]S36:计算自适应特征蒸馏损失项L
CLD

[0023]其中,KL散度为Kullback

Leibler散度,也叫相对熵。
[0024]进一步地,步骤S4还包含以下步骤:
[0025]S41:将教师分割模型的分割特征记为F
T
,将学生分割模型的分割特征记为F
S

[0026]S42:计算通道相似性矩阵;
[0027]S43:计算通道相关性蒸馏损失项L
ICKD

[0028]其中,学生分割模型的分割特征F
S
是将原始分割特征进行池化后再经过卷积处理后与F
T
相同尺寸的投影特征。
[0029]进一步地,步骤S5后还包含以下步骤:计算通道显著性蒸馏损失项L
CWD

[0030]进一步地,步骤S6计算训练模型最终的总损失项L
all
,公式为:
[0031]L
all
=L
cls
+L
KD
+βL
CLD
+γL
ICKD
+λL
CWD
[0032]其中,L
cls
为传统语义分割的交叉熵损失,L
KD
为传统的标签值蒸馏损失项;β为自适应特征蒸馏损失项L
CLD
的权重系数,γ为通道相关性蒸馏损失项L
ICKD
的权重系数,λ为通道显著性蒸馏损失项L
CWD
的权重系数。
[0033]进一步地,β取值为20,γ取值为1,λ取值为4。
[0034]本专利技术提供的一种基于通道特征的语义分割自适应知识蒸馏方法,首先选取数据集进行数据增强并获取教师分割模型和学生分割模型;再分别提取教师分割模型和学生分割模型主干网络的各层知识,进行自适应特征蒸馏;然后分别提取教师分割模型和学生分割模型的分割特征,并分别计算教师和学生特征图的通道相关性矩阵;对教师分割模型和
学生分割模型最终输出的标签预测值特征图进行逐通道归一化处理;最后计算模型训练最终的总损失,对学生模型进行训练。无需人为选择主干网络特征层蒸馏时教师分割模型与学生分割模型各层的对应关系,能够通过自注意力机制自动学习各层的相关性;并且本方法充分利用了模型的通道知识,通过学习教师模型通道的相关性与显著性特征,减少了模型对于教师冗余知识的学习,有效提高了学生模型的分割精度。
附图说明
[0035]图1为本专利技术一种基于通道特征的语义分割自适应知识蒸馏方法流程图;
[0036]图2为本专利技术一种基于通道特征的语义分割自适应知识蒸馏方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通道特征的语义分割自适应知识蒸馏方法,其特征在于,该方法包括以下步骤:S1:选取数据集进行数据增强;S2:获取教师分割模型和学生分割模型;S3:分别提取教师分割模型和学生分割模型主干网络的各层知识,进行自适应特征蒸馏;S4:分别提取教师分割模型和学生分割模型的分割特征,并分别计算教师和学生特征图的通道相关性矩阵;S5:对教师分割模型和学生分割模型最终输出的标签预测值特征图进行逐通道归一化处理;S6:计算模型训练最终的总损失,对学生模型进行训练。2.根据权利要求1所述的一种基于通道特征的语义分割自适应知识蒸馏方法,其特征在于,步骤S1中数据增强包括随机翻转,翻转角度在

10
°
至10
°
。3.根据权利要求1所述的一种基于通道特征的语义分割自适应知识蒸馏方法,其特征在于,步骤S1中数据增强包括缩放图像。4.根据权利要求1所述的一种基于通道特征的语义分割自适应知识蒸馏方法,其特征在于,步骤S2中采用金字塔场景解析网络作为模型分割架构来获取教师分割模型和学生分割模型,其中教师分割模型主干网络为101层的残差网络,学生分割模型主干网络为轻量化网络或者18层的残差网络,教师分割模型和学生分割模型均采用大型可视化数据预训练权重。5.根据权利要求1所述的一种基于通道特征的语义分割自适应知识蒸馏方法,其特征在于,步骤S3中自适应蒸馏方法包括以下步骤:S31:将教师分割模型主干网络第i层特征图记为学生模型主干部分第j层特征图记为S32:对教师分割模型和学生分割模型主干网络的各层特征图进行逐通道的归一化操作;S33:将学生分割模型主干网络的各层特征图投影到教师分割模型主干网络的各层特征图;S34:计算学生分割模型主干网络与教师分割模型主干网络各层特征图之间的相关系数α;S35:采用KL散度来使学生分割模型的分布趋近于教师分割模型;S36:计算自适应特征蒸馏损失项L
...

【专利技术属性】
技术研发人员:陈良马健
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1