System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型的训练方法、服务器及计算机可读存储介质技术_技高网

大语言模型的训练方法、服务器及计算机可读存储介质技术

技术编号:41128043 阅读:4 留言:0更新日期:2024-04-30 17:56
本申请公开一种大语言模型的训练方法,所述方法包括:获取通过第一训练集训练得到的大语言模型,获取包括第一结构数据的第二训练集,根据第二训练集训练大语言模型,得到目标大语言模型。如此,在本申请实施方式中,服务器可利用获取到第二训练集对已通过第一训练集训练的大语言模型进行训练,以得到结构化数据处理能力更高的目标大语言模型,进而服务器可根据目标大语言模型完成相应的结构化数据处理如结构化数据生成,为后续的目标大语言模型的落地提供了有效的支撑。

【技术实现步骤摘要】

本申请涉及神经网络模型,特别涉及一种大语言模型的训练方法、服务器及计算机可读存储介质


技术介绍

1、随着大语言模型(large language model,llm)能适用于多种任务如对话式任务或选择式任务。然而,在json(javascript object notation,js对象简谱)等结构化数据的处理任务中,大语言模型的表现尚有不足,因而如何提高大语言模型的结构化数据处理能力为现阶段丞待解决的问题之一。


技术实现思路

1、本申请提供一种大语言模型的训练方法、服务器及计算机可读存储介质。

2、本申请实施方式提供一种大语言模型的训练方法,包括:

3、获取大语言模型,其中,所述大语言模型通过第一训练集训练得到;

4、获取第二训练集,其中,所述第二训练集包括第一结构类型的第一结构数据,所述第一结构类型的结构数据包括第二结构类型的子数据;

5、根据所述第二训练集训练所述大语言模型,得到目标大语言模型。

6、本申请实施方式提供的大语言模型的训练方法中,服务器可获取通过第一训练集训练得到的大语言模型,并获取包括第一结构数据的第二训练集,及根据第二训练集训练大语言模型以提高大语言模型的结构化数据处理能力,从而得到目标大语言模型。

7、如此,在本申请实施方式中,服务器可利用获取到第二训练集对已通过第一训练集训练的大语言模型进行训练,以得到结构化数据处理能力更高的目标大语言模型,进而服务器可根据目标大语言模型完成相应的结构化数据处理如结构化数据生成,为后续的目标大语言模型的落地提供了有效的支撑。

8、在本申请某些实施方式中,所述获取第二训练集,包括:

9、融合所述第一训练集、预先确定的所述第一结构数据及预先确定的第二结构类型的第二结构数据,确定所述第二训练集。

10、如此,本申请实施方式基于第一结构数据、第二结构数据及第一训练集,完成第二训练集的确定,进而在利用第二训练集对大语言模型进行训练时,大语言模型可通过第一结构数据、第二结构数据及第一训练集,可靠地学习到第一结构类型的结构数据和第二结构类型的结构数据的处理能力,大语言模型的结构化数据处理能力得以可靠提升。

11、在本申请某些实施方式中,所述融合所述第一训练集、预先确定的所述第一结构数据及预先确定的第二结构类型的第二结构数据,确定所述第二训练集,包括:

12、融合所述第一训练集、第一预设数量的所述第一结构数据及第二预设数量的所述第二结构数据,确定所述第二训练集。

13、如此,本申请实施方式可基于第一训练集、第一预设数量的第一结构数据及第二预设数量的第二结构数据,完成第二训练集的构建。

14、在本申请某些实施方式中,所述第一训练集包括所述第一结构类型的第三结构数据,所述获取第二训练集,包括:

15、根据所述第一训练集中的所述第三结构数据,确定所述第一结构数据。

16、如此,本申请实施方式可利用第一训练集中的第三结构数据,确定第一结构数据以构建第二训练集,在一定程度上保障大语言模型能通过第二训练集提升结构化数据处理能力的可靠程度。

17、在本申请某些实施方式中,所述获取第二训练集,包括:

18、融合所述第一训练集和第三预设数量的所述第一结构数据,确定所述第二训练集。

19、如此,本申请实施方式的服务器可根据第一训练集和第三预设数量的第一结构数据,完成第二训练集的构建,进而在第二训练集训练大语言模型时,能在一定程度上保障大语言模型的训练效果。

20、在本申请某些实施方式中,所述方法还包括:

21、获取参考大语言模型和多个参考训练集,其中,所述参考大语言模型基于第三训练集训练得到,所述参考训练集由所述第三训练集和所述第一结构类型的第四结构数据构成,任意两个所述参考训练集内包括的所述第四结构数据的数量存在差异;

22、利用每个所述参考训练集,分别对所述参考大语言模型进行训练,确定每个所述参考训练集对应的训练后模型,及所述训练后模型的性能指标信息;

23、根据所述每个训练后模型的性能指标信息,确定多个所述训练后模型中的目标模型,及根据所述目标模型对应的参考训练集确定所述第二训练集。

24、如此,本申请实施方式的服务器可根据预先确定的测试集,对各个参考训练集对应的训练后模型进行测试,从而得到各个训练后模型的性能指标信息,使得训练后模型的性能指标信息得以可靠确定。

25、在本申请某些实施方式中,所述方法还包括:

26、基于预先确定的测试集,对每个所述训练后模型进行性能测试,得到每个所述训练后模型的所述性能指标信息。

27、在本申请某些实施方式中,所述根据所述每个训练后模型的性能指标信息,确定多个所述训练后模型中的目标模型,及根据所述目标模型对应的参考训练集确定所述第二训练集,包括:

28、根据所述每个训练后模型的性能指标信息,确定多个所述训练后模型共同对应的性能变化信息;

29、根据所述性能变化信息确定所述目标模型,及根据所述目标模型对应的参考训练集确定所述第二训练集。

30、如此,本申请实施方式的服务器可根据全部训练后模型共同对应的性能变化信息,确定目标模型及根据目标模型对应的参考训练集,实现第二训练集的确定,从而在一定程度上保障了第二训练集的可靠程度。

31、本申请实施方式提供一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述大语言模型的训练方法。

32、本申请实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述大语言模型的训练方法。

33、本申请实施方式提供的服务器和计算机可读存储介质中,可利用获取到第二训练集对已通过第一训练集训练的大语言模型进行训练,以得到结构化数据处理能力更高的目标大语言模型,进而服务器可根据目标大语言模型完成相应的结构化数据处理如结构化数据生成,为后续的目标大语言模型的落地提供了有效的支撑。

34、本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第二训练集,包括:

3.根据权利要求2所述的方法,其特征在于,所述融合所述第一训练集、预先确定的所述第一结构数据及预先确定的第二结构类型的第二结构数据,确定所述第二训练集,包括:

4.根据权利要求1所述的方法,其特征在于,所述第一训练集包括所述第一结构类型的第三结构数据,所述获取第二训练集,包括:

5.根据权利要求4所述的方法,其特征在于,所述获取第二训练集,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.根据权利要求6所述的方法,其特征在于,所述根据所述每个训练后模型的性能指标信息,确定多个所述训练后模型中的目标模型,及根据所述目标模型对应的参考训练集确定所述第二训练集,包括:

9.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-8任意一项所述的方法。

...

【技术特征摘要】

1.一种大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第二训练集,包括:

3.根据权利要求2所述的方法,其特征在于,所述融合所述第一训练集、预先确定的所述第一结构数据及预先确定的第二结构类型的第二结构数据,确定所述第二训练集,包括:

4.根据权利要求1所述的方法,其特征在于,所述第一训练集包括所述第一结构类型的第三结构数据,所述获取第二训练集,包括:

5.根据权利要求4所述的方法,其特征在于,所述获取第二训练集,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

...

【专利技术属性】
技术研发人员:巴特尔胡璟
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1