System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型训练方法、装置、计算机设备及存储介质制造方法及图纸_技高网

大语言模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40259260 阅读:10 留言:0更新日期:2024-02-02 22:50
本申请实施例公开了一种大语言模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:基于多条历史互动记录,获取图网络;从图网络中获取节点序列;在图网络中确定第二节点的距离,通过大语言模型,对第二节点的第一特征及距离进行处理,得到第二节点的第二特征;对第二节点的第二特征进行特征变换,得到第四节点的概率;基于第四节点的概率,对大语言模型进行训练。本申请实施例提供的方案中,使得大语言模型能够学习利用不同物品之间的相似性来更新物品的特征的能力,后续通过大语言模型能够获取物品的特征,能够保证物品的特征的准确性。

【技术实现步骤摘要】

本申请实施例涉及计算机,特别涉及一种大语言模型训练方法、装置、计算机设备及存储介质


技术介绍

1、在多种场景下,例如,在物品推荐场景下、物品分类场景下,以特征的形式表征物品,利用物品特征,实现物品推荐或物品分类。通常,获取物品的属性信息,对物品的属性信息进行特征提取,得到物品特征。但是,这种方式获取到的物品特征不够准确。


技术实现思路

1、本申请实施例提供了一种大语言模型训练方法、装置、计算机设备及存储介质,能够保证物品的特征的准确性。所述技术方案如下:

2、一方面,提供了一种大语言模型训练方法,所述方法包括:

3、基于多条历史互动记录,获取图网络,所述历史互动记录指示任一对象对任一物品执行过互动操作,所述图网络包括多个节点,所述节点表示物品,所述图网络中任两个节点连接表示同一对象对所述两个节点所表示物品执行过相同的互动操作;

4、从所述图网络中获取节点序列,所述节点序列包括多个第一节点,所述节点序列中相邻的每两个第一节点在所述图网络中连接;

5、在所述图网络中确定第二节点的距离,所述第二节点的距离为所述第二节点与第三节点之间的距离,所述第二节点为所述节点序列中除最后一个节点以外的任一节点,所述第三节点为所述节点序列中第一个节点;

6、通过大语言模型,对所述第二节点的第一特征及所述距离进行处理,得到所述第二节点的第二特征,所述第一特征基于所述第二节点所表示物品的属性信息获取到;

7、对所述第二节点的第二特征进行特征变换,得到第四节点的概率,所述第四节点为所述节点序列中所述第二节点的下一个节点,所述概率指示预测到所述第二节点在所述节点序列中的下一个节点是所述第四节点的可能性;

8、基于所述第四节点的概率,对所述大语言模型进行训练。

9、另一方面,提供了一种大语言模型训练装置,所述装置包括:

10、获取模块,用于基于多条历史互动记录,获取图网络,所述历史互动记录指示任一对象对任一物品执行过互动操作,所述图网络包括多个节点,所述节点表示物品,所述图网络中任两个节点连接表示同一对象对所述两个节点所表示物品执行过相同的互动操作;

11、所述获取模块,还用于从所述图网络中获取节点序列,所述节点序列包括多个第一节点,所述节点序列中相邻的每两个第一节点在所述图网络中连接;

12、确定模块,用于在所述图网络中确定第二节点的距离,所述第二节点的距离为所述第二节点与第三节点之间的距离,所述第二节点为所述节点序列中除最后一个节点以外的任一节点,所述第三节点为所述节点序列中第一个节点;

13、处理模块,用于通过大语言模型,对所述第二节点的第一特征及所述距离进行处理,得到所述第二节点的第二特征,所述第一特征基于所述第二节点所表示物品的属性信息获取到;

14、变换模块,用于对所述第二节点的第二特征进行特征变换,得到第四节点的概率,所述第四节点为所述节点序列中所述第二节点的下一个节点,所述概率指示预测到所述第二节点在所述节点序列中的下一个节点是所述第四节点的可能性;

15、训练模块,用于基于所述第四节点的概率,对所述大语言模型进行训练。

16、在一种可能实现方式中,所述处理模块,用于通过所述大语言模型,将所述第二节点的第一特征与距离特征进行融合,得到所述第二节点的第一融合特征,所述距离特征指示所述第二节点的距离;通过所述大语言模型,基于所述第二节点的第一融合特征及第五节点的第一融合特征,对所述第二节点的第一融合特征进行更新,得到所述第二节点的第二融合特征,所述第五节点为所述节点序列中所述第二节点之前的节点;通过所述大语言模型,对所述第二节点的第一融合特征及第二融合特征进行融合,得到所述第二节点的第二特征。

17、在另一种可能实现方式中,所述处理模块,用于通过所述大语言模型,基于所述第二节点的第一融合特征与所述第五节点的第一融合特征之间的相似度,对所述第二节点的第一融合特征与所述第五节点的第一融合特征进行加权,得到所述第二节点的第二融合特征。

18、在另一种可能实现方式中,所述获取模块,用于基于所述多条历史互动记录中的物品,在所述图网络中创建所述物品的节点;从所述多条历史互动记录中,确定由同一对象执行过相同的互动操作的两个物品,将所述两个物品在所述图网络中的节点连接。

19、在另一种可能实现方式中,所述确定模块,还用于基于所述图网络中节点的特征,确定所述图网络中每两个节点之间的相似度;

20、所述装置还包括:连接模块,用于将所述图网络中相似度大于第一阈值的两个节点连接。

21、在另一种可能实现方式中,所述确定模块,用于遍历所述图网络中所述第二节点与所述第三节点之间的路径;将所述第二节点与所述第三节点之间最短路径的长度,确定为所述第二节点的距离。

22、在另一种可能实现方式中,所述获取模块,用于从所述图网络中,确定第i个节点的邻居节点,所述第i个节点为当前所述节点序列中最后一个节点,i为大于0的整数;从所述第i个节点的邻居节点中,随机选取任一节点,确定为所述节点序列中的第i+1节点。

23、在另一种可能实现方式中,所述确定模块,还用于将所述图网络中任一节点,确定为所述节点序列中第一个节点。

24、在另一种可能实现方式中,所述获取模块,还用于获取第一物品的特征及多个第二物品的特征,所述第一物品的特征及所述第二物品的特征基于所述大语言模型得到;

25、所述确定模块,还用于基于所述第一物品的特征及所述多个第二物品的特征,确定所述第一物品与每个第二物品之间的相似度;

26、所述确定模块,还用于将所述多个第二物品中相似度大于第二阈值的第二物品,确定为所述第一物品的相似物品。

27、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的大语言模型训练方法所执行的操作。

28、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的大语言模型训练方法所执行的操作。

29、再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方面所述的大语言模型训练方法所执行的操作。

30、本申请实施例提供的方案中,通过多条历史互动记录来获取图网络,使得图网络中节点之间的连接关系能够反映出物品之间的相似性,基于图网络中节点之间的连接关系,从图网络中获取节点序列,利用节点序列中节点所表示物品的属性信息,获取到节点的第一特征,结合节点序列中节点之间的距离及节点的第一特征,对大语言模型进行训练,以使大语言模型能够学习利用不同物品之间的相似性来更新物品的特征的能力,后续通过大语言模型能够获取物品的本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过大语言模型,对所述第二节点的第一特征及所述距离进行处理,得到所述第二节点的第二特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述通过所述大语言模型,基于所述第二节点的第一融合特征及第五节点的第一融合特征,对所述第二节点的第一融合特征进行更新,得到所述第二节点的第二融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于多条历史互动记录,获取图网络,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述多条历史互动记录中的物品,在所述图网络中创建所述物品的节点之后,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述在所述图网络中确定第二节点的距离,包括:

7.根据权利要求1所述的方法,其特征在于,所述从所述图网络中获取节点序列,包括:

8.根据权利要求7所述的方法,其特征在于,所述从所述图网络中,确定第i个节点的邻居节点之前,所述方法还包括:

<p>9.根据权利要求1-8任一项所述的方法,其特征在于,所述基于所述第四节点的概率,对所述大语言模型进行训练之后,所述方法还包括:

10.一种大语言模型训练装置,其特征在于,所述装置包括:

11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至9任一权利要求所述的大语言模型训练方法所执行的操作。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至9任一权利要求所述的大语言模型训练方法所执行的操作。

13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一权利要求所述的大语言模型训练方法所执行的操作。

...

【技术特征摘要】

1.一种大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过大语言模型,对所述第二节点的第一特征及所述距离进行处理,得到所述第二节点的第二特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述通过所述大语言模型,基于所述第二节点的第一融合特征及第五节点的第一融合特征,对所述第二节点的第一融合特征进行更新,得到所述第二节点的第二融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于多条历史互动记录,获取图网络,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述多条历史互动记录中的物品,在所述图网络中创建所述物品的节点之后,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述在所述图网络中确定第二节点的距离,包括:

7.根据权利要求1所述的方法,其特征在于,所述从所述图网络中获取节点序列,包括:

8.根据权利要求7所述的方法,其...

【专利技术属性】
技术研发人员:叶祺黄堃孙思维邹鑫王峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1