基于自监督学习的Transformer模型训练方法技术

技术编号:38971702 阅读:25 留言:0更新日期:2023-09-28 09:35
本公开的实施例提供了一种基于自监督学习的Transformer模型训练方法。应用于深度学习领域,所述方法包括将训练数据集输入一个包含教师模型和学生模型的预设的Transformer模型,每个模型的输出有两部分,一个对应目标类任务,一个对应非目标类任务,将两部分输入到一个带有超参数的解耦Kullback

【技术实现步骤摘要】
基于自监督学习的Transformer模型训练方法


[0001]本专利技术涉及深度学习
,尤其涉及一种基于自监督学习的Transformer模型训练方法。

技术介绍

[0002]自监督学习是一种模型训练方式,主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。自监督学习技术在一定程度上缓解了下游任务训练数据少,训练数据无标签等情况带来的模型性能欠佳问题。
[0003]知识蒸馏是一种模型压缩方式,采用一种采用“教师

学生模型架构”和Kullback

Leibler散度模型的训练方法。其中教师模型是任一种已完成训练且效果较好的模型,学生模型是一个随机初始化的模型,学生模型需通过知识蒸馏技术学习到教师模型的暗知识,以达到教师模型的效果。知识蒸馏领域出现了新的方法,例如自蒸馏。自蒸馏是采用自监督学习进行知识蒸馏。它也是采用“教师

学生网模型”,与知识蒸馏不同的是,教师模型和学生模型是同结构,且教师本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的Transformer模型训练方法,其特征在于,包括:获取训练数据集;将所述训练数据集输入预设的Transformer模型,所述Transformer模型包括教师模型和学生模型;将所述教师模型和所述学生模型的输出输入到带有超参数的解耦Kullback

Leibler散度公式,获取损失值;基于所述损失值,利用梯度反向传播,更新所述学生模型的自身参数并不断调整所述超参数,同时基于所述学生模型的自身参数更新教师模型的自身参数,直到所述学生模型达到收敛,保存所述学生模型。2.根据权利要求1所述的方法,其特征在于,所述训练数据集包括:多组图像数据;每组图像数据包含对应同一原始图像的选定数量的全局视图和选定数量的局部视图;将每组图像数据输入学生模型;将每组图像数据中的全局视图输入教师模型。3.根据权利要求1所述的方法,其特征在于,所述学生模型包括:骨干模型,全局平均池化层和两个Softmax层,所述两个softmax层具有不同输出维度,一个Softmax层对应的是目标类任务,另一个Softmax层对应的是非目标类任务。4.根据权利要求3所述的方法,其特征在于,所述教师模型包括:骨干模型,center层,全局平均池化层和两个Softmax层,所述两个softmax层具有不同输出维度,一个Softmax层对应的是目标类任务,另一个Softmax层对应的是非目标类任务。5.根据权利要求4所述的方法,其特征在于,所述解耦Kullback

Leibler散度公式为:其中,D
KL
(p
T
||p
S
)是解耦Kullback

Leibler散度;p
T
和p
...

【专利技术属性】
技术研发人员:张睿
申请(专利权)人:光控特斯联重庆信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1