一种语言模型保护方法、装置及计算设备集群制造方法及图纸

技术编号：39328643 阅读：20 留言：0更新日期：2023-11-12 16:05

一种语言模型保护方法，包括：获取用户输入的请求文本；在请求文本的类别属于目标类别的情况下，将目标指令和请求文本输入至目标语言模型进行处理，得到添加有水印词的第一回复信息，以及，输出第一回复信息，其中，目标指令用于指示目标语言模型在对请求文本处理的结果中添加水印；在请求文本的类别不属于目标类别的情况下，将请求文本输入至目标语言模型进行处理，得到第二回复信息，以及，输出该第二回复信息。这样，在通过语言模型处理特定类型的请求时，可以通过语言模型自动生成带水印包含的回复信息，实现了在尽量不损伤模型生成文本质量的前提下提高语言模型的版权保护能力。质量的前提下提高语言模型的版权保护能力。质量的前提下提高语言模型的版权保护能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种语言模型保护方法、装置及计算设备集群

[0001]本申请涉及人工智能(artificial intelligence,AI)
，尤其涉及一种语言模型保护方法、装置及计算设备集群。

技术介绍

[0002]大语言模型(large language model,LLM)是自然语言处理领域中非常重要的技术之一。大语言模型可以帮助用户更好地理解和使用语言，从而提高用户的生产力和沟通效率。大语言模型可以进行机器翻译、文本写作、代码编程和开放问答等诸多任务。开发基于大语言模型的系统需要高昂的机器和人力成本，因此大语言模型本身是公司构建AI竞争力的核心资产。目前，研究已经证实了通过模型窃取技术，可以用很低的成本实现大语言模型功能的复刻，从而导致大语言模型的知识产权遭到侵犯。因此，需要对大语言模型进行有效的保护，避免模型窃取的攻击，实现对现有侵权行为的鉴定。

技术实现思路

[0003]本申请提供了一种语言模型保护方法、装置、计算设备集群、计算机存储介质及计算机产品，能够对大语言模型进行有效的保护。
[0004]第一方面，本申请提供一种语言模型保护方法，包括：获取用户输入的请求文本；在请求文本的类别属于目标类别的情况下，将目标指令和请求文本输入至目标语言模型进行处理，得到添加有水印词的第一回复信息，以及，输出第一回复信息，其中，目标指令用于指示目标语言模型在对请求文本处理的结果中添加水印；在请求文本的类别不属于目标类别的情况下，将请求文本输入至目标语言模型进行处理，得到第二回复信息，以及，输出该第二回复...

【技术保护点】

【技术特征摘要】
1.一种语言模型保护方法，其特征在于，所述方法包括：获取用户输入的请求文本；在所述请求文本的类别属于目标类别的情况下，将目标指令和所述请求文本输入至目标语言模型进行处理，得到添加有水印词的第一回复信息，以及，输出所述第一回复信息，其中，所述目标指令用于指示所述目标语言模型在对所述请求文本处理的结果中添加水印；在所述请求文本的类别不属于所述目标类别的情况下，将所述请求文本输入至所述目标语言模型进行处理，得到第二回复信息，以及，输出该第二回复信息。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述请求文本的类别属于目标类别的情况下，记录与所述第一回复信息中包含的水印词相关的水印信息。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：获取包含有至少一个请求文本的请求数据集，其中，所述请求数据集中请求文本的类别均属于所述目标类别；分别通过可疑语言模型和参考语言模型对所述请求数据集进行处理，以得到可疑回复集合和参考回复集合；通过所述目标语言模型对所述请求数据集进行处理，得到正常回复集合和水印信息集合，其中，所述水印信息集合中的水印信息中包含有正常回复集合中正常回复对应的水印词；基于所述可疑回复集合、所述参考回复集合和所述水印信息集合，确定所述可疑语言模型是否是窃取的所述目标语言模型。4.根据权利要求3所述的方法，其特征在于，所述基于所述可疑回复集合、所述参考回复集合和所述水印信息集合，确定所述可疑语言模型是否是窃取的所述目标语言模型，包括：基于所述水印信息集合，分别提取所述可疑回复集合和所述参考回复集合中包含的水印词，以得到可疑回复水印词集合和参考回复水印词集合；根据通用语料，分别计算所述可疑回复水印词集合和所述参考回复水印词集合中水印词出现的概率，得到所述可疑回复集合中各个可疑回复中水印词出现的概率分数和所述参考回复集合中各个参考回复中水印词出现的概率分数；基于可所述疑回复集合中各个可疑回复中水印词出现的概率分数和所述参考回复集合中各个参考回复中水印词出现的概率分数，确定所述可疑语言模型是否是窃取的所述目标语言模型。5.根据权利要求3所述的方法，其特征在于，所述基于所述可疑回复集合、所述参考回复集合和所述水印信息集合，确定所述可疑语言模型是否是窃取的所述目标语言模型，包括：利用所述正常回复集合模拟模型窃取流程，得到模拟窃取模型；通过所述模拟窃取模型对所述请求数据集进行处理，得到模拟回复集合；将所述水印信息集合中的水印信息分别与所述参考回复集合中相应的参考回复进行拼接，得到正样本集合，以及，将所述水印信息集合中的水印信息分别与所述模拟回复集合
中相应的模拟回复进行拼接，得到负样本集合；利用所述正样本集合和所述负样本集合进行模型训练，得到鉴权模型；通过所述鉴权模型对所述可疑回复集合和所述水印信息集合进行处理，确定所述可疑语言模型是否是窃取的所述目标语言模型。6.一种语言模型保护装置，其特征在于，包括：通信模块，用于获取用户输入的请求文本；处理模块，用于在所述请求文本的类别属于目标类别的情况下，将目标指令和所述请求文本输入至目标语言模型进行处理，得到添加有水印词的第一回复信息，以及，输出所述第一回复信息，其中，所述目标指令用于指示所述目标语言模型在对所述请求文本处理的结果中添加水印；所述处理模块，用于在所述请求文本的类别不属于所述目标类别的情况...

【专利技术属性】
技术研发人员：武楚涵，孟笑君，董振华，唐睿明，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人