System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种序列模型编辑方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种序列模型编辑方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42650489 阅读:28 留言:0更新日期:2024-09-06 01:43
本发明专利技术公开了一种序列模型编辑方法、装置、电子设备及存储介质,包括,向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量;根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元;根据关键词元的多个原始隐藏向量,确定最优隐藏向量;选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集;修改所述神经元子集的神经元参数,更新每一层的权重矩阵;迭代选择目标层的神经元,得到迭代后的神经元子集,修改迭代后的神经元子集的神经元参数,本发明专利技术能够很大程度上缓解模型遗忘问题;并且通过选择目标层,部分神经元的方式,降低了模型的编辑次数,从而降低防止模型损坏的风险。

【技术实现步骤摘要】

本申请涉及计算机视觉中的视频浓缩领域,具体是涉及一种序列模型编辑方法、装置、电子设备及存储介质


技术介绍

1、大规模语言模型(llms)在预训练期间展示了存储大量事实性知识的卓越能力,并能在推理过程中回忆起这些信息。然而,随着现实世界知识的不断演变,这些模型中的信息可能会变得过时或不正确。重新训练llms以融入新信息代价高昂。因此,近年来涌现了大量专注于在不进行完整再训练的情况下修改特定知识的模型编辑方法。这些方法首先通过计算目标知识对输出的因果影响来识别关键层,然后通过更新这些层的权重,操纵这些层的隐藏状态来修改最终输出,从而使llms能够无缝适应动态的现实世界信息。

2、尽管当前的直接模型编辑方法在单轮修改中效果显著,但现实世界应用需要一种持续学习的过程,即模型在后续修改中必须保留先前的编辑。这引出了序列模型编辑的概念,这需要对模型进行多次连续的编辑。然而,当前的模型编辑方法在这种情况下存在重大风险。主要风险是模型遗忘,即连续编辑过程中参数的累积变化导致模型遗忘先前修改的知识,从而整体性能下降。此外,第二个风险是模型失效,即过多的编辑会损害模型生成连贯文本的能力,甚至可能导致模型崩溃,表现为生成不相关、重复或无意义的文本。


技术实现思路

1、本实施例提供了一种序列模型编辑方法、装置、电子设备及存储介质,探究如何解决序列模型在连续编辑过程中遗忘先前修改的知识,过多的编辑损害模型生成连贯文本导致模型崩溃的问题。

2、第一方面,本专利技术提供了一种序列模型编辑方法,包括:

3、向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量;

4、根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元;

5、根据关键词元的多个原始隐藏向量,确定最优隐藏向量;

6、选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集;

7、修改所述神经元子集的神经元参数,更新每一层的权重矩阵;

8、迭代选择目标层的神经元,得到迭代后的神经元子集,修改迭代后的神经元子集的神经元参数,直至最优隐藏向量和原始隐藏向量满足公式:,其中为的目标阈值。

9、在其中的一些实施例中,向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量,包括:

10、向所述序列模型给定提示词,所述提示词被分解为每层对应的多个词元;

11、多个所述词元均被送至解码器块,得到每个词元对应的原始隐藏向量。

12、在其中的一些实施例中,根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元,包含:

13、向所述序列模型的每个层对应的原始隐藏向量添加高斯噪声,确定被干扰模型;

14、计算被干扰模型输出特定词元的第一概率;

15、渐进式地在所述每个层移除高斯噪声,使所述原始隐藏向量被恢复至原始值;

16、计算所述原始隐藏向量被恢复至原始值的模型输出特定词元的第二概率;

17、获取第一概率和每个第二概率的差值,得到多个差值;

18、量化所述多个差值,得到所述多个恢复分数;

19、根据所述多个恢复分数,识别多个超出预设恢复分数的目标层。

20、在其中的一些实施例中,根据关键词元的多个原始隐藏向量,确定最优隐藏向量,包括:

21、获取多个所述原始隐藏向量的损失值;

22、优化所述损失值,得到所述最优隐藏向量。

23、在其中的一些实施例中,选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集,包括:

24、基于所述给定的提示词,确定每一层激活的神经元;

25、根据所述激活的神经元,计算激活值得分;

26、排序所述激活值得分;

27、从所述排序的激活值得分中选择所述神经元子集。

28、在其中的一些实施例中,修改所述神经元子集的神经元参数,更新每一层的权重矩阵,包括:

29、获取上轮编辑中权重矩阵的权重的残差;

30、优化所述权重的残差;

31、根据所述优化的权重的残差,确定最优的模型参数变化量;

32、根据所述最优的模型参数变化量,更新所述权重矩阵。

33、与现有技术相比,本专利技术的一种序列模型编辑方法,通过在原始隐藏向量变化量优化期间固定原始参数,能够很大程度上缓解模型遗忘问题;并且通过选择目标层,部分神经元的方式,降低了模型的编辑次数,从而降低防止模型损坏的风险。

34、第二方面,本专利技术提供了一种序列模型编辑装置,包括:

35、原始隐藏向量获取模块,用于向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量;

36、定位模块,用于根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元;

37、最优隐藏向量优化模块,用于根据关键词元的多个原始隐藏向量,确定最优隐藏向量;

38、神经元选择模块,用于选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集;

39、神经元参数修改模块,用于修改所述神经元子集的神经元参数,更新每一层的权重矩阵;

40、多层迭代模块,用于迭代选择目标层的神经元,得到迭代后的神经元子集,修改迭代后的神经元子集的神经元参数,直至最优隐藏向量和原始隐藏向量满足公式:,其中为的目标阈值。

41、第三发面,本专利技术提供了一种电子设备,所述电子设备包括存储器以及处理器,所述存储器存储有至少一条计算机可执行指令,所述处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时以实现第一方面所述的一种序列模型编辑方法。

42、第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现第一方面所述的一种模流分析方法。

43、与现有技术相比,本专利技术的一种序列模型编辑装置、电子设备及存储介质有益效果与上述的一种序列模型编辑方法的有益效果相同,故此处不再赘述。

本文档来自技高网...

【技术保护点】

1.一种序列模型编辑方法,其特征在于,包括:

2.根据权利要求1所述的一种序列模型编辑方法,其特征在于,向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量,包括:

3.根据权利要求1所述的一种序列模型编辑方法,其特征在于,根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元,包含:

4.根据权利要求1所述的一种序列模型编辑方法,其特征在于,根据关键词元的多个原始隐藏向量,确定最优隐藏向量,包括:

5.根据权利要求3所述的一种序列模型编辑方法,其特征在于,选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集,包括:

6.根据权利要求1所述的一种序列模型编辑方法,其特征在于,修改所述神经元子集的神经元参数,更新每一层的权重矩阵,包括:

7.一种序列模型编辑装置,其特征在于,包括:

8.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器存储有至少一条计算机可执行指令,所述处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时以实现权利要求1至6任一项所述的一种序列模型编辑方法。

9.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现权利要求1至6任一项所述的一种序列模型编辑方法。

...

【技术特征摘要】

1.一种序列模型编辑方法,其特征在于,包括:

2.根据权利要求1所述的一种序列模型编辑方法,其特征在于,向所述序列模型给定提示词,获取所述提示词的多个原始隐藏向量,包括:

3.根据权利要求1所述的一种序列模型编辑方法,其特征在于,根据多个原始隐藏向量定位所述序列模型的待编辑位置,所述待编辑位置包含目标层和关键词元,包含:

4.根据权利要求1所述的一种序列模型编辑方法,其特征在于,根据关键词元的多个原始隐藏向量,确定最优隐藏向量,包括:

5.根据权利要求3所述的一种序列模型编辑方法,其特征在于,选择在给定提示词后,所述目标层中被激活的高分神经元,确定神经元子集,包括:...

【专利技术属性】
技术研发人员:王翔姜厚丞方俊峰张天宇王瑞鹏张岸何向南
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1