大语言模型的遗忘更新方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:45592023 阅读:32 留言:0更新日期:2025-06-20 22:09
本申请涉及一种大语言模型的遗忘更新方法、装置、设备、存储介质和程序产品。所述方法包括:确定待更新模型,以及获取待更新模型的部分参数、保留数据集和删除数据集,将待更新模型的部分参数、待更新模型、保留数据集和删除数据集,输入至预设的遗忘理论模型进行评估,得到部分参数对待更新模型中各结构的第一重要性程度,将部分参数对待更新模型中各结构的第一重要性程度,输入至结构优化模型中进行模型优化,得到优化后的模型;保留数据集中包括对训练样本数据集进行异常数据删除后的数据集;训练样本数据集是指训练待更新模型时使用的数据集;删除数据集是指异常数据构成的数据集。上述方法降低了遗忘处理所需的时间成本和计算开销。

【技术实现步骤摘要】

本申请涉及大语言模型,特别是涉及一种大语言模型的遗忘更新方法、装置、设备、存储介质和程序产品


技术介绍

1、大语言模型在人工智能领域已成为一种变革性技术,极大提升了从文本生成到模拟人类交互等自然语言处理能力,并在众多下游任务中表现卓越。然而,由于大语言模型的训练语料库规模庞大,几乎不可能完全过滤掉网络上所有潜在的危险或有害信息。因此,模型在学习有用知识的同时,可能会生成不良内容。

2、为避免潜在危险信息对模型准确度的影响,现有的解决方法是先剔除危险信息数据,并基于剔除危险信息数据的训练数据重新训练大语言模型,显然,这会带来巨大的计算成本与时间消耗。模型遗忘旨在通过有效手段消除特定数据对已训练模型的影响,从而避免重新训练的繁琐过程。例如,一种高效参数化的遗忘技术,通过识别影响遗忘的关键参数,将遗忘更新限制在这小部分关键参数中,以精准控制模型的遗忘过程。

3、然而,上述方法存在关键参数的定位准确度低,从而导致模型的遗忘更新不准确的问题。


技术实现思路

1、基于此,有必要针对上述技术问题,本文档来自技高网...

【技术保护点】

1.一种大模型的遗忘更新方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述部分参数对所述待更新模型中各结构的第一重要性程度,输入至结构优化模型中进行模型优化,得到优化后的模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述局部优化策略、所述掩码和所述遗忘理论模型,确定所述部分参数对应的目标掩码,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第二重要性程度和所述第一重要性程度,对所述第一掩码进行修正,得到第二掩码,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所...

【技术特征摘要】

1.一种大模型的遗忘更新方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述部分参数对所述待更新模型中各结构的第一重要性程度,输入至结构优化模型中进行模型优化,得到优化后的模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述局部优化策略、所述掩码和所述遗忘理论模型,确定所述部分参数对应的目标掩码,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第二重要性程度和所述第一重要性程度,对所述第一掩码进行修正,得到第二掩码,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包...

【专利技术属性】
技术研发人员:蒋屹新张喜铭张文瀚徐文倩杨秋勇梁志宏余芸徐欢杨祎巍毕乐宇洪超张宇南
申请(专利权)人:南方电网科学研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1