【技术实现步骤摘要】
一种深度神经网络的微调方法
本专利技术涉及神经网络
,具体涉及一种深度神经网络的微调方法。
技术介绍
近年来,在人工智能领域,随着任务的复杂性逐渐提高,在针对特定任务训练之前,使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法,扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多,自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。但将预训练好的深度神经网络模型在特定任务上进行微调的时候,由于其模型的参数规模通常较大,而特定任务的数据规模通常较小。这常常会带来一个矛盾之处,即:如果模型在特定任务上训练得越好,模型在原有数据集上学习到的基础模式会遗忘得越严重,模型泛化性能出现下降;但如果要降低模型在预训练中学习到的基础模式的遗忘,则模型往往在特定任务的训练中欠学习,特定任务的表现不佳。又由于模型预训练部分的参数量巨大,而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时,往往会出现,模型预训练部分由于参数量巨大已经过学习,而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态,最终导致模型表现不佳。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。本专利技术克服其技术问题所采用的技术方案是:一种深度神经网络的微调方法,包括如下步骤:a)将深 ...
【技术保护点】
1.一种深度神经网络的微调方法,其特征在于,包括如下步骤:/na)将深度神经网络模型定义为M
【技术特征摘要】
1.一种深度神经网络的微调方法,其特征在于,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式计算模型Mθ对数据集中输入数据x的预测结果
b)将经过预训练的模型定义为θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络...
【专利技术属性】
技术研发人员:张伯政,吴军,何彬彬,张福鑫,张述睿,樊昭磊,
申请(专利权)人:山东众阳健康科技集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。