【技术实现步骤摘要】
本公开涉及人工智能,具体为自然语言处理、深度学习、计算机视觉、图像处理等。
技术介绍
1、在人工智能领域中,大模型训练是目前的热点方向。但是,在大模型的训练过程中经常会遇到训练收敛不稳定的问题。例如,在大模型训练过程中出现训练发散或损失尖峰(loss spike)等问题,导致大模型训练的稳定性低。因此,如何有效提高大模型训练的稳定性是亟需解决的问题。
技术实现思路
1、本公开提供了一种模型训练方法、装置、设备及存储介质。
2、根据本公开的第一方面,提供了一种模型训练方法,包括:
3、在计算设备上部署待训练模型;
4、对部署于计算设备上的待训练模型进行训练,得到目标模型;
5、其中,对部署于计算设备上的待训练模型进行训练,包括:
6、获取表征本轮梯度的值和表征历史梯度的值;
7、基于表征历史梯度的值和表征本轮梯度的值,得到目标裁剪方式对应的参考值;
8、在参考值达到目标裁剪方式对应的裁剪标准的情况下,采用目标
...【技术保护点】
1.一种模型训练方法,包括:
2.根据权利要求1所述的方法,还包括:
3.根据权利要求1所述的方法,其中,所述对本轮梯度进行裁剪,包括:
4.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
5.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
6.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
7.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
...
【技术特征摘要】
1.一种模型训练方法,包括:
2.根据权利要求1所述的方法,还包括:
3.根据权利要求1所述的方法,其中,所述对本轮梯度进行裁剪,包括:
4.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
5.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
6.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
7.根据权利要求3所述的方法,其中,所述采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
8.根据权利要求1所述的方法,其中,所述目标裁剪方式包括全局级别裁剪方式,所述在所述参考值达到所述目标裁剪方式对应的裁剪标准的情况下,采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
9.根据权利要求1所述的方法,其中,所述目标裁剪方式包括局部级别裁剪方式,所述在所述参考值达到所述目标裁剪方式对应的裁剪标准的情况下,采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
10.根据权利要求9所述的方法,其中,在所述参考值达到所述局部级别裁剪方式对应的裁剪标准的情况下,采用所述局部级别裁剪方式对本轮梯度进行裁剪,包括以下至少之一:
11.根据权利要求1所述的方法,其中,所述目标裁剪方式包括全局级别裁剪方式和至少一种局部级别裁剪方式,所述在所述参考值达到所述目标裁剪方式对应的裁剪标准的情况下,采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
12.根据权利要求1所述的方法,其中,所述目标裁剪方式包括全局级别裁剪方式和至少一种局部级别裁剪方式,所述在所述参考值达到所述目标裁剪方式对应的裁剪标准的情况下,采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
13.根据权利要求1所述的方法,其中,所述目标裁剪方式包括全局级别裁剪方式和至少一种局部级别裁剪方式,所述在所述参考值达到所述目标裁剪方式对应的裁剪标准的情况下,采用所述目标裁剪方式对本轮梯度进行裁剪,包括:
14.一种图像处理方法,包括:
15.一种自...
【专利技术属性】
技术研发人员:王国霞,曾锦乐,巩伟宝,于佃海,马艳军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。