掩码自编码器的知识蒸馏方法、装置、设备及存储介质制造方法及图纸

技术编号:37821966 阅读:22 留言:0更新日期:2023-06-09 09:58
本发明专利技术公开了一种掩码自编码器的知识蒸馏方法、装置、设备及存储介质,该方法通过分别建立掩码自编码器的教师模型和学生模型,其中,所述教师模型和所述学生模型均为视觉变换模型,且所述教师模型的规模大于所述学生模型;对所述教师模型进行预训练;基于预训练好的所述教师模型对所述学生模型进行知识蒸馏预训练,使学生模型从预训练好的教师模型中学习数据泛化能力,得到表征能力更好的图像特征;基于下游任务对预训练好的所述学生模型进行微调训练,学生模型可部署在算力资源缺乏的电力边缘侧,在减少模型参数的同时保证了模型精度不下降,加速实时推理速度。加速实时推理速度。加速实时推理速度。

【技术实现步骤摘要】
掩码自编码器的知识蒸馏方法、装置、设备及存储介质


[0001]本专利技术涉及掩码自编码器压缩
,尤其涉及一种掩码自编码器的知识蒸馏方法、装置、设备及存储介质。

技术介绍

[0002]目前大规模预训练模型在下游任务上有着非常好的表现,但是在电网具体应用场景中,例如输变电图像缺陷检测任务中,实时性要求较高,,需要在电网的边缘侧对电力图像进行分类,边缘侧计算能力和存储空间有限,大模型不适合直接部署到边缘侧,因此需要对这类模型进行压缩。模型压缩方法中广泛使用的是基于教师(Teacher)

学生(Student)框架的知识蒸馏。该方法首先预训练参数量大的Teacher模型,然后利用Teacher模型的中间或最后输出结果监督Student模型的训练,将Teacher知识蒸馏到Student模型,提升Student模型学习能力和泛化数据能力。
[0003]近年来,利用Transformer模型将图像分成图像块(patch)序列的模型—ViTs(包括多个视觉变换(Vision Transformer,ViT)模型)受到了很大的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种掩码自编码器的知识蒸馏方法,其特征在于,包括:分别建立掩码自编码器的教师模型和学生模型,其中,所述教师模型和所述学生模型均为视觉变换模型,且所述教师模型的规模大于所述学生模型;对所述教师模型进行预训练;基于预训练好的所述教师模型对所述学生模型进行知识蒸馏预训练;基于下游任务对预训练好的所述学生模型进行微调训练。2.根据权利要求1所述的掩码自编码器的知识蒸馏方法,其特征在于,所述对所述教师模型进行预训练,包括:根据第一预设掩码率对第一输入图像进行掩码;将掩码后的第一输入图像输入到所述教师模型的编码器得到第一中间特征;将所述第一中间特征输入到所述教师模型的解码器得到第一重构图像;根据所述第一输入图像和所述第一重构图像获取第一损失函数;基于所述第一损失函数对所述教师模型进行预训练。3.根据权利要求1所述的掩码自编码器的知识蒸馏方法,其特征在于,所述基于预训练好的所述教师模型对所述学生模型进行知识蒸馏预训练,包括:基于所述学生模型和预训练好的所述教师模型获取重构损失和蒸馏损失;基于所述重构损失和蒸馏损失确定第二损失函数;基于所述第二损失函数对所述学生模型进行知识蒸馏预训练。4.根据权利要求3所述的掩码自编码器的知识蒸馏方法,其特征在于,所述基于所述学生模型和预训练好的所述教师模型获取重构损失和蒸馏损失,包括:根据第二预设掩码率对第二输入图像进行掩码;将掩码后的所述第二输入图像输入到所述学生模型的编码器得到第二中间特征,将所述第二中间特征输入到所述学生模型的解码器得到第二重构图像;将掩码后的所述第二输入图像输入到预训练好的所述教师模型的编码器得到第三中间特征,将所述第三中间特征输入到预训练好的所述教师模型的解码器得到第三重构图像;基于所述第二重构图像获取重构损失;基于所述第二中间特征、第三中间特征、第二重构图像和第三重构图像获取蒸馏损失。5.根据权利要求4所述的掩码自编码器的知识蒸馏方法,其特征在于,所述基于所述第二重构图像获取重构损失包括:获取所述第二输入图像和所述第二重构图像在掩蔽区域的像素点的距离,以及所述第二输入图像和所述第二重构图像在未掩蔽区域的像素点的距离;基于在掩蔽区域的像素点的距离和在未掩蔽区域的像素点的距离获取所述重构损失。6.根据权利要求4所述的掩码自编码器的知识蒸馏方法,其特征在于,所述基于所述第二中间特征、第三中间特征、第二重构图像和第三重构图像获取蒸馏损失,包括:计算所述第二中间特征和所述第三中间特征的距离;基于预设的温度系数计算所述第二重构图像和所述第三重构图像在掩蔽区域的像素点的距离;基于所述第二中间特征和所述第三中间特征的距离,以及所述第二重构图像和所述第
三重构图像在掩蔽区域的像素点的距离获取蒸馏损失。7.根据权利要求1所述的掩码自编码器的知识蒸馏方法,其特征在于,所述基于下游任务对预训练好的所述学生模型进行微调训练,包括:根据预训练好的所述学生模型的编码器获取下游任务的训练集的第四中间特征;将所述第四中间特征输入到下游任务的映射层进行微调训练。8.一种掩码自编码器的知识蒸馏装置,其特征在于,包括:模型建立模块,用于分别建立掩码自编码器的教师模型和学生模型,其中,所述教师模型和所述学生模型均为视觉变换模型,且所述教师模型的规模大于所述学生模型;教师模型训练模块,用于对所述教师模型进...

【专利技术属性】
技术研发人员:张屹张国梁杜泽旭林龙刘卫卫初宗博
申请(专利权)人:国网上海市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1