【技术实现步骤摘要】
本申请涉及大语言模型,特别是涉及一种大语言模型的遗忘更新方法、装置、设备、存储介质和程序产品。
技术介绍
1、大语言模型在人工智能领域已成为一种变革性技术,极大提升了从文本生成到模拟人类交互等自然语言处理能力,并在众多下游任务中表现卓越。然而,由于大语言模型的训练语料库规模庞大,几乎不可能完全过滤掉网络上所有潜在的危险或有害信息。因此,模型在学习有用知识的同时,可能会生成不良内容。
2、为避免潜在危险信息对模型准确度的影响,现有的解决方法是先剔除危险信息数据,并基于剔除危险信息数据的训练数据重新训练大语言模型,显然,这会带来巨大的计算成本与时间消耗。模型遗忘旨在通过有效手段消除特定数据对已训练模型的影响,从而避免重新训练的繁琐过程。例如,一种高效参数化的遗忘技术,通过识别影响遗忘的关键参数,将遗忘更新限制在这小部分关键参数中,以精准控制模型的遗忘过程。
3、然而,上述方法存在关键参数的定位准确度低,从而导致模型的遗忘更新不准确的问题。
技术实现思路
1、基于此,有必
...【技术保护点】
1.一种大模型的遗忘更新方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述部分参数对所述待更新模型中各结构的第一重要性程度,输入至结构优化模型中进行模型优化,得到优化后的模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述局部优化策略、所述掩码和所述遗忘理论模型,确定所述部分参数对应的目标掩码,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二重要性程度和所述第一重要性程度,对所述第一掩码进行修正,得到第二掩码,包括:
5.根据权利要求1-4任一项所述的
...【技术特征摘要】
1.一种大模型的遗忘更新方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述部分参数对所述待更新模型中各结构的第一重要性程度,输入至结构优化模型中进行模型优化,得到优化后的模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述局部优化策略、所述掩码和所述遗忘理论模型,确定所述部分参数对应的目标掩码,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二重要性程度和所述第一重要性程度,对所述第一掩码进行修正,得到第二掩码,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包...
【专利技术属性】
技术研发人员:蒋屹新,张喜铭,张文瀚,徐文倩,杨秋勇,梁志宏,余芸,徐欢,杨祎巍,毕乐宇,洪超,张宇南,
申请(专利权)人:南方电网科学研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。