【技术实现步骤摘要】
本专利技术涉及计算机,更具体地,涉及一种序列化模型编辑的方法和装置。
技术介绍
1、随着科技的发展,智能问答系统的应用越来越广泛,具体的,用户向智能问答系统提出问题后,智能问答系统会针对用户提出的问题给出答案,上述问答过程可以通过大规模语言模型llms实现,上述llms具备理解、分析和生成文本的能力;上述llms存在一个重要的缺点,即由于其庞大的参数数量,预训练的计算成本巨大,当需要将新知识引入到预训练的llms时,考虑到计算资源和数据资源的开销,无法从头开始进行训练,因此,需要在引入新知识时,精确地修改llms中特定的知识参数。
2、现有技术中,采用序列化模型编辑sme方法对llms进行编辑,但上述sme方法仅适用于单次编辑和简单知识编辑的情况,上述sme方法只能处理规模较小的数据量,对于长序列知识编辑仍然面临很大的挑战;并且,在涉及对多条知识进行序列编辑的场景下,只能进行多次编辑,多次编辑会导致在编辑过程中llms的通用能力退化,产生遗忘问题,进而导致在编辑过程中影响llms中的其它参数,使上述llms产生幻觉现象。
...【技术保护点】
1.一种序列化模型编辑的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述待编辑知识三元组数据生成序列编辑损失函数,具体包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述待编辑知识三元组数据、所述第一参数和所述待编辑的第二参数,确定结构编辑损失函数,具体包括:
6.根据权利要求1所述的方法,其特征在于,所述将更新后的所述待编辑的第二参数保存到
...【技术特征摘要】
1.一种序列化模型编辑的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述待编辑知识三元组数据生成序列编辑损失函数,具体包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述待编辑知识三元组数据、所述第一参数和所述待编辑的第二参数,确定结构编辑损失函数,具体包括:
6.根据权利要求1所述的方法,其特征在于,所述将更新后的所述待编辑的第二参数保存到知识参数队列,具体包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还...
【专利技术属性】
技术研发人员:张涛林,李东阳,汪诚愚,黄龙涛,薛晖,
申请(专利权)人:淘宝中国软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。