一种序列化模型编辑的方法和装置制造方法及图纸

技术编号:43282042 阅读:23 留言:0更新日期:2024-11-12 16:05
本发明专利技术实施例公开了一种序列化模型编辑的方法和装置。本发明专利技术实施例中,通过获取待编辑知识三元组数据,定位到大规模语言模型的多层感知器层,确定第一参数和待编辑的第二参数;根据待编辑知识三元组数据、第一参数和待编辑的第二参数,确定结构编辑损失函数;根据结构编辑损失函数更新待编辑的第二参数;将更新后的待编辑的第二参数保存到知识参数队列;根据更新后的所述待编辑的第二参数对知识参数队列中的多个已编辑的第二参数进行更新;将更新后的待编辑的第二参数和更新后的所述多个已编辑的第二参数对所述大规模语言模型的多层感知器层进行更新。通过上述方法,可以降低大规模语言模型在序列化编辑过程中产生的能力退化问题。

【技术实现步骤摘要】

本专利技术涉及计算机,更具体地,涉及一种序列化模型编辑的方法和装置


技术介绍

1、随着科技的发展,智能问答系统的应用越来越广泛,具体的,用户向智能问答系统提出问题后,智能问答系统会针对用户提出的问题给出答案,上述问答过程可以通过大规模语言模型llms实现,上述llms具备理解、分析和生成文本的能力;上述llms存在一个重要的缺点,即由于其庞大的参数数量,预训练的计算成本巨大,当需要将新知识引入到预训练的llms时,考虑到计算资源和数据资源的开销,无法从头开始进行训练,因此,需要在引入新知识时,精确地修改llms中特定的知识参数。

2、现有技术中,采用序列化模型编辑sme方法对llms进行编辑,但上述sme方法仅适用于单次编辑和简单知识编辑的情况,上述sme方法只能处理规模较小的数据量,对于长序列知识编辑仍然面临很大的挑战;并且,在涉及对多条知识进行序列编辑的场景下,只能进行多次编辑,多次编辑会导致在编辑过程中llms的通用能力退化,产生遗忘问题,进而导致在编辑过程中影响llms中的其它参数,使上述llms产生幻觉现象。p>

3、综上所本文档来自技高网...

【技术保护点】

1.一种序列化模型编辑的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述待编辑知识三元组数据生成序列编辑损失函数,具体包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述待编辑知识三元组数据、所述第一参数和所述待编辑的第二参数,确定结构编辑损失函数,具体包括:

6.根据权利要求1所述的方法,其特征在于,所述将更新后的所述待编辑的第二参数保存到知识参数队列,具体包...

【技术特征摘要】

1.一种序列化模型编辑的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述待编辑知识三元组数据生成序列编辑损失函数,具体包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述待编辑知识三元组数据、所述第一参数和所述待编辑的第二参数,确定结构编辑损失函数,具体包括:

6.根据权利要求1所述的方法,其特征在于,所述将更新后的所述待编辑的第二参数保存到知识参数队列,具体包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还...

【专利技术属性】
技术研发人员:张涛林李东阳汪诚愚黄龙涛薛晖
申请(专利权)人:淘宝中国软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1