System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,具体涉及一种模型训练方法、任务处理方法、模型训练装置、任务处理装置、计算机程序产品和电子设备。
技术介绍
1、近年来,大型语言模型涌现,为自然语言处理和人工智能领域带来了革命性的变化,大语言模型可应用于很多应用场景中,如文本生成、智能问答等。大语言模型需要大量的计算资源、存储空间和时间来进行训练,传统的训练方法可能需要数月甚至半年的时间,为了解决这个问题,目前通过分布式训练、计算优化和硬件加速等方式改进训练过程的收敛速度和计算效率。然而,目前训练大语言模型的方法均无法同时满足训练大语言模型的高精度、高效、低成本的训练需求。
2、需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的目的在于提供一种模型训练方法、任务处理方法、模型训练装置、任务处理装置、计算机程序产品和电子设备,进而至少在一定程度上提高大语言模型的训练效率和训练精度,降低训练成本。
2、根据本公开的第一方面,提供一种模型训练方法,包括:从初始训练样本集中采集当前训练批次的训练样本,训练样本包括基于样本评估模型从初始训练样本集中获取的困难样本;基于训练样本对大语言模型进行训练,并根据训练样本的训练损失值对训练样本标注类别标签,类别标签用于指示训练样本是否为困难样本;根据训练样本和对应的类别标签对样本评估模型进行训练,以完成当前训练批次;进入下一训练批次,直到大语言模型
3、在本公开一示例性实施例中,样本评估模型共享大语言模型中的目标网络参数;在对大语言模型进行训练之前,该方法还包括;基于待训练的大语言模型的目标网络参数确定初始网络;在初始网络的输出侧添加样本分类网络,得到样本评估模型。
4、在本公开一示例性实施例中,从初始训练样本集中采集当前训练批次的训练样本,包括:根据初始样本保留率从初始训练样本集中采集第一训练样本;针对初始训练样本集中的未采集样本,利用样本评估模型对未采集样本进行困难度评估,并将评估结果为困难样本的未采集样本确定为第二训练样本;根据第一训练样本和第二训练样本确定当前训练批次的训练样本。
5、在本公开一示例性实施例中,基于训练样本对大语言模型进行训练,并根据训练样本的训练损失值对训练样本标注类别标签,包括:获取当前困难度阈值;若训练样本的训练损失值大于当前困难度阈值,则确定训练样本的类别标签为困难样本;否则,将训练样本的类别标签确定为非困难样本。
6、在本公开一示例性实施例中,获取当前困难度阈值,包括:获取当前训练批次的第一训练损失和当前训练批次之前的训练批次的第二训练损失;根据第一训练损失和第二训练损失,确定当前困难度阈值。
7、在本公开一示例性实施例中,基于所述训练样本对大语言模型进行训练,包括:将训练样本输入至大语言模型,根据得到预测结果确定预测损失值;根据预测损失值对大语言模型的参数进行调整;其中,样本评估模型中初始网络的参数随大语言模型的参数的调整进行调整。
8、在本公开一示例性实施例中,根据训练样本和对应的类别标签对样本评估模型进行训练,包括:将训练样本输入至样本评估模型,得到样本预测结果;根据样本预测结果和类别标签构建损失函数,并根据损失函数对样本评估模型的样本分类网络的参数进行调整。
9、根据本公开的第二方面,提供一种任务处理方法,包括:获取待处理的任务信息;将待处理的任务信息输入至目标大语言模型,得到待处理的任务信息的处理结果;其中,目标大语言模型为基于上述中任一项的方法对大语言模型进行训练得到的。
10、根据本公开的第三方面,提供一种模型训练装置,包括:样本处理模块,用于从初始训练样本集中采集当前训练批次的训练样本,训练样本包括基于样本评估模型从初始训练样本集中获取的困难样本;第一训练模块,用于基于训练样本对大语言模型进行训练,并根据训练样本的训练损失值对训练样本标注类别标签,类别标签用于指示训练样本是否为困难样本;第二训练模块,用于根据训练样本和对应的类别标签对样本评估模型进行训练,以完成当前训练批次;第三训练模块,用于控制模型训练过程进入下一训练批次,直到大语言模型完成训练停止,得到训练完成的大语言模型。
11、根据本公开的第四方面,提供一种任务处理装置,包括:信息获取模块,用于获取待处理的任务信息;任务处理模块,用于将待处理的任务信息输入至目标大语言模型,得到待处理的任务信息的处理结果;其中,目标大语言模型为基于上述中任一项的方法对大语言模型进行训练得到的。
12、根据本公开的一个方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述中的任一项的方法。
13、根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项的方法。
14、本公开实施例所提供的技术方案中,一方面,在每个训练批次的训练时,从初始训练样本集中采集当前训练批次的训练样本,使训练样本包括基于样本评估模型从初始训练样本集中获取的困难样本,使用于模型训练的训练样本为包含丰富信息量的困难样本,实现在模型训练中恰当地过滤冗余数据,保持模型训练精度的同时,加速模型训练,降低成本。另一方面,在当前训练批次的训练过程中,基于训练样本对大语言模型进行训练后,根据训练样本的训练损失值对训练样本标注类别标签,动态调整用于对样本评估模型进行训练时的类别标签,以有利于在后续的训练批次中,通过样本评估模型能够准确地去除对于训练大语言模型低价值的训练样本,从而提高在后训练批次的训练样本的质量,并且通过在训练过程中利用同一训练样本完成对大语言模型和样本评估模型的训练,使模型训练与样本筛选过程相融合,促使选择的样本更符合大语言模型的训练需求,提高模型训练精度。
15、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本文档来自技高网...【技术保护点】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述样本评估模型共享所述大语言模型中的目标网络参数;在对所述大语言模型进行训练之前,所述方法还包括;
3.根据权利要求1所述的方法,其特征在于,所述从初始训练样本集中采集当前训练批次的训练样本,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本对大语言模型进行训练,并根据所述训练样本的训练损失值对所述训练样本标注类别标签,包括:
5.根据权利要求4所述的方法,其特征在于,所述获取当前困难度阈值,包括:
6.根据权利要求2所述的方法,其特征在于,所述基于所述训练样本对大语言模型进行训练,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述训练样本和对应的类别标签对所述样本评估模型进行训练,包括:
8.一种任务处理方法,其特征在于,包括:
9.一种模型训练装置,其特征在于,包括:
10.一种任务处理装置,其特征在于,包括:
11.一种计算机程序产品,包括
12.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述样本评估模型共享所述大语言模型中的目标网络参数;在对所述大语言模型进行训练之前,所述方法还包括;
3.根据权利要求1所述的方法,其特征在于,所述从初始训练样本集中采集当前训练批次的训练样本,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本对大语言模型进行训练,并根据所述训练样本的训练损失值对所述训练样本标注类别标签,包括:
5.根据权利要求4所述的方法,其特征在于,所述获取当前困难度阈值,包括:
【专利技术属性】
技术研发人员:王家兴,李勇,宫礼星,陶通,刘朋樟,包勇军,
申请(专利权)人:北京沃东天骏信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。