System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型更新方法、装置、设备、介质及程序产品制造方法及图纸_技高网

一种模型更新方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:44534998 阅读:17 留言:0更新日期:2025-03-11 14:04
本公开涉及人工智能技术领域,尤其涉及一种模型更新方法、装置、设备、介质及程序产品,方法包括:获取目标更新数据在预设维度的第一特征分布结果和原始训练样本在预设维度的第二特征分布结果;对预设维度对应的第一特征分布结果和第二特征分布结果进行差量对比,得到差量信息;根据差量信息,从原始训练样本中选择训练数据与目标更新数据合并,得到目标训练集;当目标训练集在预设维度的特征分布结果与第二特征分布结果的偏差在预设范围内时,利用目标训练集对待更新模型进行增量训练,得到更新后的目标模型;本实施例不仅能将新增知识学习到模型中,还能避免知识遗忘,既实现了模型随新知识的出现实时更新,还保证了模型的稳定性。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及一种模型更新方法、装置、设备、介质及程序产品


技术介绍

1、大语言模型需要随着真实世界新知识的出现不断更新,以使其输出能够适应新出现的语言模式、术语、概念和信息,从而保持与真实世界同步。

2、当真实世界出现新增知识时,通常通过如下两种方式完成对大语言模型的增量训练。第一,通过检索增强生成(retrieval-augmented generation,简称rag)旁路更新方式,外挂一个新增知识库,辅助完成大语言模型的增量训练。第二、通过周期训练方式,例行对大语言模型做增量训练。

3、虽然上述两种方式均能实现对大语言模型的增量训练,但是,rag方式并不能使大语言模型学习和理解到新知识;周期训练方式严重依赖人工介入且时效性比较久。


技术实现思路

1、为了解决上述技术问题,本公开提供了一种模型更新方法、装置、设备、介质及程序产品。

2、第一方面,本专利技术提供了一种模型更新方法,包括:

3、获取目标更新数据在预设维度的第一特征分布结果和原始训练样本在预设维度的第二特征分布结果;对预设维度对应的第一特征分布结果和第二特征分布结果进行差量对比,得到差量信息;根据差量信息,从原始训练样本中选择训练数据与目标更新数据合并,得到目标训练集;当目标训练集在预设维度的特征分布结果与第二特征分布结果的偏差在预设范围内时,利用目标训练集对待更新模型进行增量训练,得到更新后的目标模型。

4、第二方面,本专利技术提供了一种模型更新装置,包括:

5、获取模块,用于获取目标更新数据在预设维度的第一特征分布结果和原始训练样本在预设维度的第二特征分布结果;对比模块,用于对预设维度对应的第一特征分布结果和第二特征分布结果进行差量对比,得到差量信息;合并模块,用于根据差量信息,从原始训练样本中选择训练数据与目标更新数据合并,得到目标训练集;训练模块,用于当目标训练集在预设维度的特征分布结果与第二特征分布结果的偏差在预设范围内时,利用目标训练集对待更新模型进行增量训练,得到更新后的目标模型。

6、第三方面,本专利技术提供了一种计算机设备,包括:

7、存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行
技术实现思路
第一方面对应的模型更新方法。

8、第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行
技术实现思路
第一方面对应的模型更新方法。

9、第五方面,本专利技术提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现
技术实现思路
第一方面对应的模型更新方法的步骤。

10、本公开实施例提供的技术方案与现有技术相比具有如下优点:

11、本实施例提供的模型更新方法,获取目标更新数据在预设维度的第一特征分布结果和原始训练样本在预设维度的第二特征分布结果;对预设维度对应的第一特征分布结果和第二特征分布结果进行差量对比,得到差量信息;根据差量信息,从原始训练样本中选择训练数据与目标更新数据合并,得到目标训练集;当目标训练集在预设维度的特征分布结果与第二特征分布结果的偏差在预设范围内时,利用目标训练集对待更新模型进行增量训练,得到更新后的目标模型;本实施例根据差量信息得到的目标训练集不仅融合了目标更新数据,而且还具备与原始训练样本接近的特征分布结果,从而使得根据目标训练集对模型进行增量训练时,不仅能将更新数据对应的新增知识学习到模型中,还能避免知识遗忘,既实现了模型随新知识的出现实时更新,也无需人工介入,还保证了模型的稳定性。

本文档来自技高网...

【技术保护点】

1.一种模型更新方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标更新数据在预设维度的第一特征分布结果,包括:

3.根据权利要求2所述的方法,其特征在于,获取目标更新数据在所述预设维度对应的特征标签,包括:

4.根据权利要求2所述的方法,其特征在于,获取目标更新数据在所述预设维度对应的特征标签,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述预设维度对应的所述第一特征分布结果和所述第二特征分布结果进行差量对比,得到差量信息,包括:

6.一种模型更新装置,其特征在于,包括:

7.根据权利要求6所述的装置,其特征在于,所述获取模块,包括:

8.一种计算机设备,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至5中任一项所述的模型更新方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的模型更新方法的步骤。

...

【技术特征摘要】

1.一种模型更新方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标更新数据在预设维度的第一特征分布结果,包括:

3.根据权利要求2所述的方法,其特征在于,获取目标更新数据在所述预设维度对应的特征标签,包括:

4.根据权利要求2所述的方法,其特征在于,获取目标更新数据在所述预设维度对应的特征标签,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述预设维度对应的所述第一特征分布结果和所述第二特征分布结果进行差量对比,得到差量...

【专利技术属性】
技术研发人员:陈凯
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1