当前位置: 首页 > 专利查询>浙江大学专利>正文

文本生成模型的数据遗忘方法及装置制造方法及图纸

技术编号:43837635 阅读:16 留言:0更新日期:2024-12-31 18:34
本说明书实施例提供了文本生成模型的数据遗忘方法及装置,文本生成模型已经过预训练,且用于该预训练的部分训练数据被设置为遗忘数据集,遗忘数据集中包括被设置为需要遗忘的词元,该方法包括:获取第一负样本对,其包括第一词元和第二词元,第一词元为遗忘数据集中需要遗忘的词元;利用文本生成模型,将第一词元转换成第一嵌入表示,以及将第二词元转换成第二嵌入表示;根据第一嵌入表示和第二嵌入表示之间的第一相似度,确定第一对比损失,第一对比损失与第一相似度正相关;根据第一对比损失,更新文本生成模型的参数。

【技术实现步骤摘要】

本说明书实施例属于计算机,尤其涉及文本生成模型的数据遗忘方法及装置


技术介绍

1、大规模语言模型(large language models,llm),是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文本进行训练。其中,大规模语言模型能够处理和生成自然语言文本,可称为文本生成模型。

2、文本生成模型在预训练阶段会吸收和存储大量的知识,但其中可能包含错误、无用或有害的知识。这些知识可能会对应用程序的输出产生负面影响,甚至导致不良结果或法律风险。

3、因此,迫切需要一种合理、可靠的方案,能使得文本生成模型遗忘会产生负面影响的知识(如恶意内容、不准确或虚假内容、侵权信息、版权相关内容和个人隐私内容),以确保文本生成模型生成的回答合理且合规,提高文本生成模型的可信度和合规性。


技术实现思路

1、本专利技术的目的在于提供一种文本生成模型的数据遗忘方案,能使得文本生成模型遗忘会产生负面影响的知识,以确保文本生成模型生成的回答合理且合规,提高文本生成模型的可本文档来自技高网...

【技术保护点】

1.一种文本生成模型的数据遗忘方法,所述文本生成模型已经过预训练,且用于所述预训练的部分训练数据被设置为遗忘数据集,所述遗忘数据集中包括被设置为需要遗忘的词元,所述方法包括:

2.根据权利要求1所述的方法,其中,所述第二词元和所述第一词元为第一训练数据中包括的词元,在所述第一训练数据中,所述第二词元为所述第一词元的上下文。

3.根据权利要求2所述的方法,还包括:

4.根据权利要求2所述的方法,其中,所述利用所述文本生成模型,将所述第一词元转换成第一嵌入表示,以及将所述第二词元转换成第二嵌入表示,包括:

5.根据权利要求1所述的方法,其中,所...

【技术特征摘要】

1.一种文本生成模型的数据遗忘方法,所述文本生成模型已经过预训练,且用于所述预训练的部分训练数据被设置为遗忘数据集,所述遗忘数据集中包括被设置为需要遗忘的词元,所述方法包括:

2.根据权利要求1所述的方法,其中,所述第二词元和所述第一词元为第一训练数据中包括的词元,在所述第一训练数据中,所述第二词元为所述第一词元的上下文。

3.根据权利要求2所述的方法,还包括:

4.根据权利要求2所述的方法,其中,所述利用所述文本生成模型,将所述第一词元转换成第一嵌入表示,以及将所述第二词元转换成第二嵌入表示,包括:

5.根据权利要求1所述的方法,其中,所述文本生成模型的全量参数被分解成多个低秩矩阵;

6.根据权利要求5所述的方法,其中,所述多个低秩矩阵包括第一低秩矩阵和第二低秩矩阵;

7.根据权利要求1-6之一所述的方法,其中,用于所述预训练的其他训练数据被设置为剩余数据...

【专利技术属性】
技术研发人员:刘文炎殷山
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1