System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法及相关产品技术_技高网

模型训练方法及相关产品技术

技术编号:44971572 阅读:10 留言:0更新日期:2025-04-12 01:45
本申请公开了一种模型训练方法及相关产品。该方法包括:在i台设备的运行内存中部署第一模型;在m台设备的运行内存中部署第二模型;在n台设备的显存中部署第一模型;利用n台设备中的第一模型,对训练提示词进行处理,生成第一文本;将n台设备的显存中的第一模型从显存转移至运行内存;将部署在i台设备的第一模型从运行内存转移至显存;将部署在m台设备的第二模型从运行内存转移至显存;利用m台设备的显存中的第二模型,对训练提示词和第一文本进行处理,预估第一文本中的目标词对目标匹配度的第一提升度;基于第一提升度确定第一模型的第一损失;基于第一损失,更新i台设备的显存中的第一模型的参数,得到目标模型。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种模型训练方法及相关产品


技术介绍

1、随着自然语言处理技术的发展,大语言模型(large language model,llm)应运而生。得益于强大的性能,llm的应用非常广,但是在将llm投入到应用场景之前,需要对llm进行训练,因此如何通过对llm进行训练具有非常重要的意义。


技术实现思路

1、本申请提供一种模型训练方法及相关产品,其中,相关产品包括模型训练装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面,提供了一种模型训练方法,所述方法包括:

3、在i台设备的运行内存中部署第一模型,所述第一模型为具备自然语言处理能力的模型;

4、在m台设备的运行内存中部署第二模型,所述第二模型用于预估所生成的词对目标匹配度的提升程度,所述目标匹配度为所述第一模型生成的文本与预设要求的匹配度;

5、在n台设备的显存中部署所述第一模型,所述n为所述i与所述m的和;

6、利用部署在所述n台设备的显存中的所述第一模型,对训练提示词进行处理,生成第一文本;

7、将部署在所述n台设备的显存中的所述第一模型从所述n台设备的显存转移至所述n台设备的运行内存中;

8、将部署在所述i台设备的运行内存中的所述第一模型从所述i台设备的运行内存转移至所述i台设备的显存中;

9、将部署在所述m台设备的运行内存中的所述第二模型从所述m台设备的运行内存转移至所述m台设备的显存中;

10、利用所述m台设备的显存中的所述第二模型,对所述训练提示词和所述第一文本进行处理,预估所述第一文本中的目标词对所述目标匹配度的第一提升度;

11、基于所述第一提升度确定所述第一模型的第一损失,所述第一提升度与所述第一损失呈负相关;

12、基于所述第一损失,更新所述i台设备的显存中的所述第一模型的参数,得到目标模型。

13、结合本申请任一实施方式,所述在n台设备的显存中部署所述第一模型,包括:

14、将所述第一模型切分为n份,得到n份第一子模型;

15、将所述n份第一子模型部署于所述n台设备的显存中,所述第一子模型与所述n台设备中的设备一一对应;

16、所述利用部署在所述n台设备的显存中的所述第一模型,对训练提示词进行处理,生成第一文本,包括:

17、利用部署在所述n台设备的显存中的所述n份第一子模型,对所述训练提示词进行处理,生成所述第一文本。

18、结合本申请任一实施方式,所述n台设备包括共享设备,所述共享设备的显存包括共享存储空间,所述n台设备均可访问所述共享存储空间,所述共享存储空间中存储有所述n份第一子模型;

19、所述利用部署在所述n台设备的显存中的所述n份第一子模型,对所述训练提示词进行处理,生成所述第一文本,包括:

20、对于所述n台设备中的每台设备,均从所述共享存储空间内获取完成相应的所述第一子模型的目标处理所需的目标数据,所述目标处理用于实现所述第一模型对所述训练提示词的处理;

21、利用部署在所述n台设备的显存中的所述n份第一子模型对相应的所述目标数据进行所述目标处理,生成所述第一文本。

22、结合本申请任一实施方式,所述对于所述n台设备中的每台设备,均从所述共享存储空间内获取完成相应的所述第一子模型的目标处理所需的目标数据,包括:

23、对于所述n台设备中的每台设备,从所述共享存储空间内确定完成相应的所述第一子模型的所述目标处理所需的数据,作为所述目标数据;

24、对于所述n台设备中的每台设备,将存储在所述共享存储空间内的所述目标数据存储至设备的显存中。

25、结合本申请任一实施方式,所述在i台设备的运行内存中部署第一模型,包括:

26、将所述第一模型切分为i份,得到i份第二子模型;

27、将所述i份第二子模型部署于所述i台设备的运行内存中,所述第二子模型与所述i台设备中的设备一一对应;

28、所述将部署在所述i台设备的运行内存中的所述第一模型从所述i台设备的运行内存转移至所述i台设备的显存中,包括:

29、将部署在所述i台设备的运行内存中的所述i份第二子模型从所述i台设备的运行内存转移至所述i台设备的显存中;

30、所述基于所述第一损失,更新所述i台设备的显存中的所述第一模型的参数,得到目标模型,包括:

31、基于所述第一损失,更新所述i台设备的显存中的所述i份第二子模型的参数,得到i份第三子模型;

32、合并所述i份第三子模型,得到所述目标模型。

33、结合本申请任一实施方式,所述将部署在所述i台设备的运行内存中的所述i份第二子模型从所述i台设备的运行内存转移至所述i台设备的显存中,包括:

34、将存储在所述i台设备的运行内存中的第一训练信息转移至所述i台设备的显存中,所述第一训练信息包括:所述第二子模型的参数、所述第一模型在前一轮训练中的梯度、当前训练轮数。

35、结合本申请任一实施方式,所述i份第三子模型是通过当前训练轮数的训练得到的;

36、所述合并所述i份第三子模型,得到所述目标模型,包括:

37、在所述当前训练轮数是最后一个训练轮数的情况下,合并所述i份第三子模型,得到所述目标模型。

38、结合本申请任一实施方式,所述方法还包括:

39、在所述当前训练轮数不是最后一个训练轮数的情况下,将所述i份第三子模型从所述i台设备的显存转移至所述i台设备的运行内存中;

40、所述n台设备中的每一台设备均执行合并所述i台设备的运行内存中的所述i份第三子模型的步骤,以使所述n台设备中的每一台设备的运行内存中均存储有更新后的第一模型,所述更新后的第一模型是通过对所述i份第三子模型进行合并得到的;

41、所述n台设备中的每一台设备均执行将所述更新后的第一模型切分为n份第四子模型的步骤,以使所述n台设备中的每一台设备的运行内存中均存储有一份所述第四子模型,且所述n台设备中的不同设备的运行内存中存储的所述第四子模型不同;

42、所述n台设备中的每一台设备均执行将存储在运行内存中的所述第四子模型存储至共享存储空间。

43、结合本申请任一实施方式,所述在m台设备的运行内存中部署第二模型,包括:

44、将所述第二模型切分为m份,得到m份第五子模型;

45、将所述m份第五子模型部署于所述m台设备的运行内存中,所述第五子模型与所述m台设备中的设备一一对应;

46、所述将部署在所述m台设备的运行内存中的所述第二模型从所述m台设备的运行内存转移至所述m台设备的显存中,包括:

47、将部署在所述m台设备的运行内存中的所述m份第五子模型从所述m台设备的运行内存转移至所述m台设备的本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在n台设备的显存中部署所述第一模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述n台设备包括共享设备,所述共享设备的显存包括共享存储空间,所述n台设备均可访问所述共享存储空间,所述共享存储空间中存储有所述n份第一子模型;

4.根据权利要求3所述的方法,其特征在于,所述对于所述n台设备中的每台设备,均从所述共享存储空间内获取完成相应的所述第一子模型的目标处理所需的目标数据,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述在i台设备的运行内存中部署第一模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述i份第三子模型是通过当前训练轮数的训练得到的;

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至4中任意一项所述的方法,其特征在于,所述在m台设备的运行内存中部署第二模型,包括:

9.根据权利要求8所述的方法,其特征在于,所述n台设备中的目标设备的显存中部署有第三模型,所述第三模型用于评估所述第一模型生成的文本与所述预设要求的匹配度;

10.根据权利要求1至4中任意一项所述的方法,其特征在于,在所述将部署在所述n台设备的显存中的所述第一模型从所述n台设备的显存转移至所述n台设备的运行内存中之前,所述方法还包括:

11.一种模型训练装置,其特征在于,所述模型训练装置包括:

12.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至10中任意一项所述的方法。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至10中任意一项所述的方法。

14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或指令;在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行权利要求1至10中任意一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在n台设备的显存中部署所述第一模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述n台设备包括共享设备,所述共享设备的显存包括共享存储空间,所述n台设备均可访问所述共享存储空间,所述共享存储空间中存储有所述n份第一子模型;

4.根据权利要求3所述的方法,其特征在于,所述对于所述n台设备中的每台设备,均从所述共享存储空间内获取完成相应的所述第一子模型的目标处理所需的目标数据,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述在i台设备的运行内存中部署第一模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述i份第三子模型是通过当前训练轮数的训练得到的;

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至4中任意一项所述的方法,其特征在于,所述在m台设备的运行内存中部署第二模型,包括:

9.根据权利要求8所述的方法,其特征在于,所述n台设备中的...

【专利技术属性】
技术研发人员:于子淇潘柯宇
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1