【技术实现步骤摘要】
模型训练的方法和装置
[0001]本申请涉及深度学习领域,更具体地,涉及一种模型训练的方法和装置。
技术介绍
[0002]目前,已在各个领域中广泛采用人工智能神经网络,诸如,在自然语言处理(NLP,Natural Language Processing)的人工智能应用中,已广泛采用诸如转化器(transformer)模型的自然语言处理模型。文本、图像和演讲等数据都可以用来训练转化器模型,以用于问题回答、情感分析、信息提取、图像字幕等任务。
[0003]可以发现,诸如生成预训练转化器
‑
3(GPT
‑
3,Generative Pre
‑
trained Transformer
‑
3)的大型人工智能神经网络在许多NLP任务中总是能够获得卓越的性能。也就是说,人工智能神经网络的规模越大,性能越好。然而,大规模的人工智能神经网络的长时间无监督预训练需要相当多的计算资源和相当长的训练时间,并且获得更高的模型精度需要更长的训练时间和更多的硬件资源,从而会产生更 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练的方法,包括:获得模型的每一层的敏感度,其中,第l层的敏感度是基于训练预设次数的所述模型的精度与训练预设次数的跳过第l层的模型的精度获得的,l为正整数并且不大于所述模型的层数;获得所述模型第t次迭代训练的保持概率,其中,第t次迭代训练的保持概率是基于所述模型的相关参数、迭代序数t和预设的保持概率获得的,t为正整数;基于每一层的敏感度和第t次迭代训练的保持概率,获得所述模型的每一层的保持概率;对包括保持概率满足预设条件的层的模型进行第t次迭代训练。2.如权利要求1所述的模型训练的方法,还包括:基于每一层的敏感度,将敏感度满足第一预设条件的层确定为每一次迭代训练需要保持的层;将敏感度满足第二预设条件的层确定每一次迭代训练需要跳过的层。3.如权利要求2所述的模型训练的方法,其中,获得所述模型的每一层的保持概率的步骤包括:获得第t次迭代训练所述模型的剩余层中每一层的保持概率,其中,所述模型的剩余层为所述模型所有层中除每一次迭代训练需要保持的层和每一次迭代训练需要跳过的层以外的层;将每一次迭代训练需要保持的层的保持概率设置为满足预设条件的保持概率值。4.如权利要求1所述的模型训练的方法,其中,获得所述模型的每一层的保持概率的步骤包括:基于所述模型当前的吞吐量和第t次迭代训练的保持概率,获得第t次迭代训练的校准因子;基于每一层的敏感度、第t次迭代训练的保持概率以及所述校准因子,获得所述模型的每一层的保持概率。5.如权利要求4所述的模型训练的方法,其中,获得所述模型第t次迭代训练的保持概率的步骤还包括:通过以下等式获得:其中,θ
t
为第t次迭代训练的保持概率,a为所述模型的形状参数,v为所述模型的比例参数,c为所述模型的二项式权重,t为迭代的序数,ε为所述模型的阈值参数,η为所述模型的放大因子,θ为预设的保持概率,Γ为伽马函数。6.如权利要求5所述的模型训练的方法,其中,基于每一层的敏感度、第t次迭代训练的保持概率以及所述校准因子,获得所述模型的每一层的保持概率的步骤包括:通过以下等式获得:p
t,I
=clamp(α
t
...
【专利技术属性】
技术研发人员:曾玉洁,贺文龙,瓦西里索夫,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。