System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的强化学习模型训练方法、设备及存储介质技术_技高网

基于大模型的强化学习模型训练方法、设备及存储介质技术

技术编号:40798996 阅读:2 留言:0更新日期:2024-03-28 19:25
本发明专利技术公开了一种基于大模型的强化学习模型训练方法、电子设备及存储介质。该基于大模型的强化学习模型训练方法采用至少两个处理单元实现,包括:获取提示词集合;将所述提示词集合划分为与所述处理单元的数量相一致的至少两个提示词子集合,在每个处理单元上基于相应的提示词子集构建强化学习数据子集,基于全部所述强化学习用数据子集构建强化学习数据集;基于所述强化学习数据集对所述强化学习模型的策略网络以及评判网络进行训练。通过应用本方案,可以解决现有的强化学习框架根据提示词构造数据阶段费时,严重拖慢训练速度的技术问题。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,特别涉及一种基于大模型的强化学习模型训练方法、电子设备及存储介质。


技术介绍

1、大型语言模型(large language model,简称llm)是人工智能领域中的一项重要技术,它通过深度学习和自然语言处理技术,为人工智能系统赋予了强大的语言理解和生成能力。

2、大型语言模型如gpt-3等通常由数亿至数十亿的参数,它们并非总能直观、简洁地获取到明确的反馈。虽然它们可以通过监督学习进行训练,但是监督学习需要大量精确的标签数据,并且在训练过程中,模型可能表现出过拟合的趋势,可能在训练数据中表现良好,但在未知数据面前则显示出较差的适应能力。

3、相比之下,强化学习可以通过与环境进行交互来自我学习和改善。它不需要大量标签数据,而是通过将动作与奖励联系起来进行学习。这也使得强化学习更好地处理复杂、动态和未知的环境,这对大型语言模型非常有益,因为它们处理的任务往往涉及到多种类型的输入和输出,需要更好地适应和理解这些多变的情境。强化学习还能使大型语言模型更有效地进行长期规划。在对话系统等应用中,每个回答或行动可能会影响未来的对话方向以及最终的任务完成情况,这就要求模型有能力对一系列的行为进行评估和规划,而强化学习恰好提供了这样的机制。

4、但是,当模型量级达到一定程度,例如模型的参数不小于百b(即千亿),市面上的强化学习框架便不能满足需要了,主要原因包括:(1)根据提示词(prompt)构造数据阶段极为费时,严重拖慢训练速度。(2)显存制约,标准的人类反馈强化学习(reinforcementleaming from human feedback,简称rlhf)需要放4个模型,如果每个模型的参数都在百b以上,显存是远远不够的。(3)算法层面大模型的奖励模型(reward model)更为容易攻破,算法调优更为艰难。

5、显然,现有的基于大模型的强化学习模型训练方法,至少存在上述三个方面的问题,亟需解决。


技术实现思路

1、为此,本专利技术提供了一种基于大模型的强化学习模型训练方法、电子设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。

2、根据本专利技术的一个方面,提供一种基于大模型的强化学习模型训练方法,所述方法采用至少两个处理单元实现,所述方法包括:

3、步骤s100:获取提示词集合;

4、步骤s200:将所述提示词集合划分为与所述处理单元的数量相一致的至少两个提示词子集合,在每个处理单元上基于相应的提示词子集构建强化学习数据子集,基于全部所述强化学习用数据子集构建强化学习数据集;

5、步骤s300:基于所述强化学习数据集对所述强化学习模型的策略网络(actor网络)以及评判网络(critic网络)进行训练。

6、可选地,在所述步骤s200中,所述方法还包括:

7、利用所述至少两个处理单元计算参考概率(reference_logits)与收益分数(reward_score),其中,所述参考概率的计算分布于不同的所述处理单元,所述收益分数的计算也分布于不同的所述处理单元。

8、可选地,在所述步骤s200与所述步骤s300之间,所述方法还包括:

9、对所述强化学习模型进行模型卸载操作。

10、可选地,所述策略网络的训练与所述评判网络的训练分别进行。

11、可选地,在所述步骤s300之后,所述方法还包括:

12、步骤s400:获取所述策略网络的参数以及下一轮训练用提示词集合;

13、步骤s500:将所述提示词集合划分为与所述处理单元的数量相一致的至少两个提示词子集合,在每个处理单元上基于相应的提示词子集构建强化学习数据子集,基于全部所述强化学习用数据子集构建强化学习数据集;

14、步骤s600:基于所述强化学习数据集对所述强化学习模型的策略网络(actor网络)进行训练,以对所述策略网络的所述参数进行更新。

15、可选地,在所述步骤s300中,使用所述强化学习模型的参考模型估算kl散度(klpenalty)。

16、可选地,在所述步骤s300中,在所述对所述强化学习模型的策略网络以及评判网络进行训练的过程中使用早停法技术。

17、可选地,所述大模型的参数规模为不小于千亿。

18、可选地,所述处理单元为gpu,所述至少两个处理单元采用统一计算架构(cuda)。

19、根据本专利技术的又一个方面,提供一种电子设备,包括:

20、至少两个处理器;以及

21、存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少两个处理器执行,所述程序指令包括用于执行如上任一项所述方法的指令。

22、根据本专利技术的再一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如上任一项所述方法。

23、根据本申请的基于大模型的强化学习模型训练方法,将提示词集合划分为与所述处理单元的数量相一致的至少两个提示词子集合,在每个处理单元上基于相应的提示词子集构建强化学习数据子集,基于全部强化学习用数据子集构建强化学习数据集,可以解决现有的强化学习框架根据提示词构造数据阶段费时,严重拖慢训练速度的技术问题。

24、进一步地,通过将参考概率的计算分布于不同的处理单元,以及将收益分数的计算分布于不同的所述处理单元,可以解决现有的强化学习模型训练显存不足的技术问题。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的强化学习模型训练方法,其特征在于,所述方法采用至少两个处理单元实现,所述方法包括:

2.如权利要求1所述的方法,其特征在于,在所述步骤S200中,所述方法还包括:

3.如权利要求1所述的方法,其特征在于,在所述步骤S200与所述步骤S300之间,所述方法还包括:

4.如权利要求1所述的方法,其特征在于,在所述步骤S300中,所述策略网络的训练与所述评判网络的训练分别进行。

5.如权利要求1所述的方法,其特征在于,在所述步骤S300之后,所述方法还包括:

6.如权利要求1至5任一项所述的方法,其特征在于,在所述步骤S300中,使用所述强化学习模型的参考模型估算KL散度。

7.如权利要求1至5任一项所述的方法,其特征在于,在所述步骤S300中,在所述对所述强化学习模型的策略网络以及评判网络进行训练的过程中使用早停法技术。

8.如权利要求1至5任一项所述的方法,其特征在于,所述大模型的参数规模为不小于千亿;

9.一种电子设备,其特征在于,包括:

10.一种存储有程序指令的可读存储介质,其特征在于,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1至8中任一项所述的训练方法。

...

【技术特征摘要】

1.一种基于大模型的强化学习模型训练方法,其特征在于,所述方法采用至少两个处理单元实现,所述方法包括:

2.如权利要求1所述的方法,其特征在于,在所述步骤s200中,所述方法还包括:

3.如权利要求1所述的方法,其特征在于,在所述步骤s200与所述步骤s300之间,所述方法还包括:

4.如权利要求1所述的方法,其特征在于,在所述步骤s300中,所述策略网络的训练与所述评判网络的训练分别进行。

5.如权利要求1所述的方法,其特征在于,在所述步骤s300之后,所述方法还包括:

6.如权利要求1至5任一项所...

【专利技术属性】
技术研发人员:严俊杰高华佐周亦庄
申请(专利权)人:上海阶跃星辰智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1