一种语言模型保护方法、装置及计算设备集群制造方法及图纸

技术编号:39328643 阅读:20 留言:0更新日期:2023-11-12 16:05
一种语言模型保护方法,包括:获取用户输入的请求文本;在请求文本的类别属于目标类别的情况下,将目标指令和请求文本输入至目标语言模型进行处理,得到添加有水印词的第一回复信息,以及,输出第一回复信息,其中,目标指令用于指示目标语言模型在对请求文本处理的结果中添加水印;在请求文本的类别不属于目标类别的情况下,将请求文本输入至目标语言模型进行处理,得到第二回复信息,以及,输出该第二回复信息。这样,在通过语言模型处理特定类型的请求时,可以通过语言模型自动生成带水印包含的回复信息,实现了在尽量不损伤模型生成文本质量的前提下提高语言模型的版权保护能力。质量的前提下提高语言模型的版权保护能力。质量的前提下提高语言模型的版权保护能力。

【技术实现步骤摘要】
一种语言模型保护方法、装置及计算设备集群


[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种语言模型保护方法、装置及计算设备集群。

技术介绍

[0002]大语言模型(large language model,LLM)是自然语言处理领域中非常重要的技术之一。大语言模型可以帮助用户更好地理解和使用语言,从而提高用户的生产力和沟通效率。大语言模型可以进行机器翻译、文本写作、代码编程和开放问答等诸多任务。开发基于大语言模型的系统需要高昂的机器和人力成本,因此大语言模型本身是公司构建AI竞争力的核心资产。目前,研究已经证实了通过模型窃取技术,可以用很低的成本实现大语言模型功能的复刻,从而导致大语言模型的知识产权遭到侵犯。因此,需要对大语言模型进行有效的保护,避免模型窃取的攻击,实现对现有侵权行为的鉴定。

技术实现思路

[0003]本申请提供了一种语言模型保护方法、装置、计算设备集群、计算机存储介质及计算机产品,能够对大语言模型进行有效的保护。
[0004]第一方面,本申请提供一种语言模型保护方法,包括:获取用户输入的请求文本;在请求文本的类别属于目标类别的情况下,将目标指令和请求文本输入至目标语言模型进行处理,得到添加有水印词的第一回复信息,以及,输出第一回复信息,其中,目标指令用于指示目标语言模型在对请求文本处理的结果中添加水印;在请求文本的类别不属于目标类别的情况下,将请求文本输入至目标语言模型进行处理,得到第二回复信息,以及,输出该第二回复信息。
[0005]这样,在通过语言模型处理特定类型的请求时,可以通过语言模型自动生成带水印包含的回复信息,实现了在尽量不损伤模型生成文本质量的前提下提高语言模型的版权保护能力。
[0006]在一种可能的实现方式中,该方法还包括:在请求文本的类别属于目标类别的情况下,记录与第一回复信息中包含的水印词相关的水印信息。
[0007]在一种可能的实现方式中,该方法还包括:获取包含有至少一个请求文本的请求数据集,其中,请求数据集中请求文本的类别均属于目标类别;分别通过可疑语言模型和参考语言模型对请求数据集进行处理,以得到可疑回复集合和参考回复集合;通过目标语言模型对请求数据集进行处理,得到正常回复集合和水印信息集合,其中,水印信息集合中的水印信息中包含有正常回复集合中正常回复对应的水印词;基于可疑回复集合、参考回复集合和水印信息集合,确定可疑语言模型是否是窃取的目标语言模型。这样,在怀疑有模型是窃取的目标语言模型时,就可以利用可疑模型、目标语言模型和一个已知的非窃取模型,确定出可疑模型是否是窃取的目标语言模型,降低了模型鉴权的难度。
[0008]在一种可能的实现方式中,该方法还包括:基于可疑回复集合、参考回复集合和水
印信息集合,确定可疑语言模型是否是窃取的目标语言模型,包括:基于水印信息集合,分别提取可疑回复集合和参考回复集合中包含的水印词,以得到可疑回复水印词集合和参考回复水印词集合;根据通用语料,分别计算可疑回复水印词集合和参考回复水印词集合中水印词出现的概率,得到可疑回复集合中各个可疑回复中水印词出现的概率分数和参考回复集合中各个参考回复中水印词出现的概率分数;基于可疑回复集合中各个可疑回复中水印词出现的概率分数和参考回复集合中各个参考回复中水印词出现的概率分数,确定可疑语言模型是否是窃取的目标语言模型。这样,就通过白盒的方式确定出可疑语言模型是否是窃取的目标语言模型,降低了模型鉴权的难度。
[0009]在一种可能的实现方式中,该方法还包括:基于可疑回复集合、参考回复集合和水印信息集合,确定可疑语言模型是否是窃取的目标语言模型,包括:利用正常回复集合模拟模型窃取流程,得到模拟窃取模型;通过模拟窃取模型对请求数据集进行处理,得到模拟回复集合;将水印信息集合中的水印信息分别与参考回复集合中相应的参考回复进行拼接,得到正样本集合,以及,将水印信息集合中的水印信息分别与模拟回复集合中相应的模拟回复进行拼接,得到负样本集合;利用正样本集合和负样本集合进行模型训练,得到鉴权模型;通过鉴权模型对可疑回复集合和水印信息集合进行处理,确定可疑语言模型是否是窃取的目标语言模型。这样,就通过黑盒的方式确定出可疑语言模型是否是窃取的目标语言模型,降低了模型鉴权的难度。
[0010]第二方面,本申请提供一种语言模型保护装置,包括:通信模块和处理模块。其中,通信模块,用于获取用户输入的请求文本。处理模块,用于在请求文本的类别属于目标类别的情况下,将目标指令和请求文本输入至目标语言模型进行处理,得到添加有水印词的第一回复信息,以及,输出第一回复信息,其中,目标指令用于指示目标语言模型在对请求文本处理的结果中添加水印。处理模块,用于在请求文本的类别不属于目标类别的情况下,将请求文本输入至目标语言模型进行处理,得到第二回复信息,以及,输出该第二回复信息。
[0011]在一种可能的实现方式中,处理模块,还用于:在请求文本的类别属于目标类别的情况下,记录与第一回复信息中包含的水印词相关的水印信息。
[0012]在一种可能的实现方式中,处理模块,还用于:获取包含有至少一个请求文本的请求数据集,其中,请求数据集中请求文本的类别均属于目标类别;分别通过可疑语言模型和参考语言模型对请求数据集进行处理,以得到可疑回复集合和参考回复集合;通过目标语言模型对请求数据集进行处理,得到正常回复集合和水印信息集合,其中,水印信息集合中的水印信息中包含有正常回复集合中正常回复对应的水印词;基于可疑回复集合、参考回复集合和水印信息集合,确定可疑语言模型是否是窃取的目标语言模型。
[0013]在一种可能的实现方式中,处理模块在基于可疑回复集合、参考回复集合和水印信息集合,确定可疑语言模型是否是窃取的目标语言模型时,具体用于:基于水印信息集合,分别提取可疑回复集合和参考回复集合中包含的水印词,以得到可疑回复水印词集合和参考回复水印词集合;根据通用语料,分别计算可疑回复水印词集合和参考回复水印词集合中水印词出现的概率,得到可疑回复集合中各个可疑回复中水印词出现的概率分数和参考回复集合中各个参考回复中水印词出现的概率分数;基于可疑回复集合中各个可疑回复中水印词出现的概率分数和参考回复集合中各个参考回复中水印词出现的概率分数,确定可疑语言模型是否是窃取的目标语言模型。
[0014]在一种可能的实现方式中,处理模块在基于可疑回复集合、参考回复集合和水印信息集合,确定可疑语言模型是否是窃取的目标语言模型时,具体用于:利用正常回复集合模拟模型窃取流程,得到模拟窃取模型;通过模拟窃取模型对请求数据集进行处理,得到模拟回复集合;将水印信息集合中的水印信息分别与参考回复集合中相应的参考回复进行拼接,得到正样本集合,以及,将水印信息集合中的水印信息分别与模拟回复集合中相应的模拟回复进行拼接,得到负样本集合;利用正样本集合和负样本集合进行模型训练,得到鉴权模型;通过鉴权模型对可疑回复集合和水印信息集合进行处理,确定可疑语言模型是否是窃取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型保护方法,其特征在于,所述方法包括:获取用户输入的请求文本;在所述请求文本的类别属于目标类别的情况下,将目标指令和所述请求文本输入至目标语言模型进行处理,得到添加有水印词的第一回复信息,以及,输出所述第一回复信息,其中,所述目标指令用于指示所述目标语言模型在对所述请求文本处理的结果中添加水印;在所述请求文本的类别不属于所述目标类别的情况下,将所述请求文本输入至所述目标语言模型进行处理,得到第二回复信息,以及,输出该第二回复信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述请求文本的类别属于目标类别的情况下,记录与所述第一回复信息中包含的水印词相关的水印信息。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取包含有至少一个请求文本的请求数据集,其中,所述请求数据集中请求文本的类别均属于所述目标类别;分别通过可疑语言模型和参考语言模型对所述请求数据集进行处理,以得到可疑回复集合和参考回复集合;通过所述目标语言模型对所述请求数据集进行处理,得到正常回复集合和水印信息集合,其中,所述水印信息集合中的水印信息中包含有正常回复集合中正常回复对应的水印词;基于所述可疑回复集合、所述参考回复集合和所述水印信息集合,确定所述可疑语言模型是否是窃取的所述目标语言模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述可疑回复集合、所述参考回复集合和所述水印信息集合,确定所述可疑语言模型是否是窃取的所述目标语言模型,包括:基于所述水印信息集合,分别提取所述可疑回复集合和所述参考回复集合中包含的水印词,以得到可疑回复水印词集合和参考回复水印词集合;根据通用语料,分别计算所述可疑回复水印词集合和所述参考回复水印词集合中水印词出现的概率,得到所述可疑回复集合中各个可疑回复中水印词出现的概率分数和所述参考回复集合中各个参考回复中水印词出现的概率分数;基于可所述疑回复集合中各个可疑回复中水印词出现的概率分数和所述参考回复集合中各个参考回复中水印词出现的概率分数,确定所述可疑语言模型是否是窃取的所述目标语言模型。5.根据权利要求3所述的方法,其特征在于,所述基于所述可疑回复集合、所述参考回复集合和所述水印信息集合,确定所述可疑语言模型是否是窃取的所述目标语言模型,包括:利用所述正常回复集合模拟模型窃取流程,得到模拟窃取模型;通过所述模拟窃取模型对所述请求数据集进行处理,得到模拟回复集合;将所述水印信息集合中的水印信息分别与所述参考回复集合中相应的参考回复进行拼接,得到正样本集合,以及,将所述水印信息集合中的水印信息分别与所述模拟回复集合
中相应的模拟回复进行拼接,得到负样本集合;利用所述正样本集合和所述负样本集合进行模型训练,得到鉴权模型;通过所述鉴权模型对所述可疑回复集合和所述水印信息集合进行处理,确定所述可疑语言模型是否是窃取的所述目标语言模型。6.一种语言模型保护装置,其特征在于,包括:通信模块,用于获取用户输入的请求文本;处理模块,用于在所述请求文本的类别属于目标类别的情况下,将目标指令和所述请求文本输入至目标语言模型进行处理,得到添加有水印词的第一回复信息,以及,输出所述第一回复信息,其中,所述目标指令用于指示所述目标语言模型在对所述请求文本处理的结果中添加水印;所述处理模块,用于在所述请求文本的类别不属于所述目标类别的情况...

【专利技术属性】
技术研发人员:武楚涵孟笑君董振华唐睿明
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1