【技术实现步骤摘要】
本说明书实施例属于计算机,尤其涉及文本生成模型的数据遗忘方法及装置。
技术介绍
1、大规模语言模型(large language models,llm),是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文本进行训练。其中,大规模语言模型能够处理和生成自然语言文本,可称为文本生成模型。
2、文本生成模型在预训练阶段会吸收和存储大量的知识,但其中可能包含错误、无用或有害的知识。这些知识可能会对应用程序的输出产生负面影响,甚至导致不良结果或法律风险。
3、因此,迫切需要一种合理、可靠的方案,能使得文本生成模型遗忘会产生负面影响的知识(如恶意内容、不准确或虚假内容、侵权信息、版权相关内容和个人隐私内容),以确保文本生成模型生成的回答合理且合规,提高文本生成模型的可信度和合规性。
技术实现思路
1、本专利技术的目的在于提供一种文本生成模型的数据遗忘方案,能使得文本生成模型遗忘会产生负面影响的知识,以确保文本生成模型生成的回答合理且合规,
...【技术保护点】
1.一种文本生成模型的数据遗忘方法,所述文本生成模型已经过预训练,且用于所述预训练的部分训练数据被设置为遗忘数据集,所述遗忘数据集中包括被设置为需要遗忘的词元,所述方法包括:
2.根据权利要求1所述的方法,其中,所述第二词元和所述第一词元为第一训练数据中包括的词元,在所述第一训练数据中,所述第二词元为所述第一词元的上下文。
3.根据权利要求2所述的方法,还包括:
4.根据权利要求2所述的方法,其中,所述利用所述文本生成模型,将所述第一词元转换成第一嵌入表示,以及将所述第二词元转换成第二嵌入表示,包括:
5.根据权利要求1
...【技术特征摘要】
1.一种文本生成模型的数据遗忘方法,所述文本生成模型已经过预训练,且用于所述预训练的部分训练数据被设置为遗忘数据集,所述遗忘数据集中包括被设置为需要遗忘的词元,所述方法包括:
2.根据权利要求1所述的方法,其中,所述第二词元和所述第一词元为第一训练数据中包括的词元,在所述第一训练数据中,所述第二词元为所述第一词元的上下文。
3.根据权利要求2所述的方法,还包括:
4.根据权利要求2所述的方法,其中,所述利用所述文本生成模型,将所述第一词元转换成第一嵌入表示,以及将所述第二词元转换成第二嵌入表示,包括:
5.根据权利要求1所述的方法,其中,所述文本生成模型的全量参数被分解成多个低秩矩阵;
6.根据权利要求5所述的方法,其中,所述多个低秩矩阵包括第一低秩矩阵和第二低秩矩阵;
7.根据权利要求1-6之一所述的方法,其中,用于所述预训练的其他训练数据被设置为剩余数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。