一种模型攻击方法、装置、存储介质及设备制造方法及图纸

技术编号：44892959 阅读：18 留言：0更新日期：2025-04-08 00:31

本申请提供了一种模型攻击方法、装置、存储介质及设备，该方法应用于计算机技术领域，该方法包括：攻击模型向目标模型发送与攻击任务相关的第一攻击提示，对目标模型针对第一攻击提示所返回的第一响应内容进行语义分析，根据语义分析结果确定是否停止攻击，若继续攻击，则根据攻击提示、响应内容以及攻击任务之间的攻击相关性分数确定与目标模型的对话方向。在针对目标模型的攻击过程中，通过多回合对话，对响应内容进行语义分析，逐步调整对话方向，提升攻击成功率，使研究者可以识别目标模型在生成响应内容时的薄弱环节，有助于发现目标模型的漏洞，并开发更有效的安全防御机制。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，并且更具体地，涉及计算机中一种模型攻击方法、装置、存储介质及设备。

技术介绍

1、大语言模型(large language model，llm)利用大量的文本数据和复杂的反馈机制进行训练，能够在自然语言处理(natural language processing，nlp)任务中展现出卓越的处理能力。然而，一系列被称为“越狱”的攻击利用llm的漏洞，破坏llm的安全机制，诱导llm输出与预期不符的响应。对越狱攻击的研究有助于揭示llm的系统性漏洞，并推动llm的安全防御能力的提升。

技术实现思路

1、本申请提供了一种模型攻击方法、装置、存储介质及设备，该方法能够对目标模型针对攻击提示返回的响应内容进行语义分析，以及时调整后续的对话方向，或确定完成攻击任务。在针对目标模型的攻击过程中，通过多回合对话，对响应内容进行语义分析，逐步调整对话方向，提升攻击成功率，使研究者可以识别目标模型在生成响应内容时的薄弱环节，有助于发现目标模型的漏洞，并开发更有效的安全防御机制。

2、第一方面，提供了一种模型攻击方法，该方法包括：在第一对话轮次中向目标模型发送与攻击任务相关的第一攻击提示；接收目标模型返回的针对第一攻击提示的第一响应内容；对第一响应内容进行语义分析，判断第一响应内容是否符合攻击任务对应的目标响应内容；若第一响应内容不符合目标响应内容，则基于第一响应内容、第一攻击提示以及攻击任务之间的攻击相关性分数，确定与目标模型的对话方向；若第一响应内容符合目标响应内容，则确定完成攻击任务。

3、通过上述技术方案，攻击模型向目标模型发送与攻击任务相关的第一攻击提示，对目标模型针对第一攻击提示所返回的第一响应内容进行语义分析，若第一响应内容符合攻击任务对应的目标响应内容，则直接确定完成攻击任务；若第一响应内容不符合目标响应内容，则基于第一响应内容与第一攻击提示以及攻击任务之间的攻击相关性分数确定与目标模型的对话方向。在针对目标模型的攻击过程中，通过多回合对话，对响应内容进行语义分析，逐步调整对话方向，提升攻击成功率，使研究者可以识别目标模型在生成响应内容时的薄弱环节，有助于发现目标模型的漏洞，并开发更有效的安全防御机制。

4、结合第一方面，在某些可能的实现方式中，该若第一响应内容不符合目标响应内容，则基于第一响应内容、第一攻击提示以及攻击任务之间的攻击相关性分数，确定与目标模型的对话方向步骤，包括：若第一响应内容不符合目标响应内容，则基于第一响应内容与第一攻击提示以及攻击任务的相关性，确定攻击相关性分数；比较攻击相关性分数与第二对话轮次所对应的历史相关性分数，第二对话轮次为第一对话轮次的上一对话轮次；若攻击相关性分数小于或等于历史相关性分数，则确定与目标模型的对话方向为对第一对话轮次进行重述或对第二对话轮次进行重述；若攻击相关性分数大于历史相关性分数，则确定与目标模型的对话方向为进入第三对话轮次，第三对话轮次为第一对话轮次的下一对话轮次。

5、结合第一方面和上述实现方式，在某些可能的实现方式中，该若攻击相关性分数小于或等于历史相关性分数，则确定与目标模型的对话方向为对第一对话轮次进行重述或对第二对话轮次进行重述步骤，包括：若攻击相关性分数小于或等于历史相关性分数，则比较第一对话轮次中对第一攻击提示的重述次数与预设重述次数阈值；若重述次数小于预设重述次数阈值，则确定与目标模型的对话方向为对第一对话轮次进行重述；若重述次数等于预设重述次数阈值，则确定与目标模型的对话方向为对第二对话轮次进行重述。

6、结合第一方面和上述实现方式，在某些可能的实现方式中，该若重述次数小于预设重述次数阈值，则确定与目标模型的对话方向为对第一对话轮次进行重述步骤，包括：若重述次数小于预设重述次数阈值，则采用优化策略对第一攻击提示进行优化，优化策略包括词汇替换、细节增改、语义拓展、上下文关联、结构调整和复杂度调整中的至少一种；向目标模型发送优化后的第一攻击提示。

7、结合第一方面和上述实现方式，在某些可能的实现方式中，该若重述次数等于预设重述次数阈值，则确定与目标模型的对话方向为对第二对话轮次进行重述步骤，包括：若重述次数等于预设重述次数阈值，则撤回第一对话轮次；基于提示角度对第二对话轮次所对应的第二攻击提示进行调整；向目标模型发送调整后的第二攻击提示。

8、结合第一方面和上述实现方式，在某些可能的实现方式中，该若攻击相关性分数大于历史相关性分数，则确定与目标模型的对话方向为进入第三对话轮次步骤之后，还包括：响应于进入第三对话轮次的对话方向，对第一对话轮次在对话中的对话轮数进行自增操作，得到第三对话轮次在对话中的对话轮数；将第三对话轮次在对话中的对话轮数确定为当前对话轮数，比较当前对话轮数与预设轮数阈值；若当前对话轮数小于或等于预设轮数阈值，则基于第一对话轮次与第二对话轮次，生成第三对话轮次对应的第三攻击提示，并向目标模型发送第三攻击提示；若当前对话轮数大于预设轮数阈值，则确定完成攻击任务。

9、结合第一方面和上述实现方式，在某些可能的实现方式中，该在第一对话轮次中向目标模型发送与攻击任务相关的第一攻击提示步骤之前，还包括：接收攻击任务，获取与攻击任务相关的无攻击话题；基于无攻击话题构建针对攻击任务的基础对话。

10、结合第一方面和上述实现方式，在某些可能的实现方式中，该在第一对话轮次中向目标模型发送与攻击任务相关的第一攻击提示步骤，包括：获取与攻击任务相关的攻击词；将攻击词引入基础对话中，得到与攻击任务相关的第一攻击提示，并在第一对话轮次中向目标模型发送第一攻击提示。

11、第二方面，提供了一种模型攻击装置，该装置包括：

12、第一攻击单元，用于在第一对话轮次中向目标模型发送与攻击任务相关的第一攻击提示；

13、响应接收单元，用于接收目标模型返回的针对第一攻击提示的第一响应内容；

14、语义分析单元，用于对第一响应内容进行语义分析，判断第一响应内容与第一攻击提示以及攻击任务的相关性，得到攻击相关性分数；

15、对话方向确定单元，用于若攻击相关性分数未达到预设分数阈值，则基于对话轮数与攻击相关性分数，确定与目标模型的对话方向；

16、攻击任务完成单元，用于若攻击相关性分数达到预设分数阈值，则确定完成攻击任务。

17、第三方面，提供了一种计算机设备，包括处理器、存储器、输入输出接口；

18、处理器分别与存储器和输入输出接口相连，其中，输入输出接口用于页面交互，存储器用于存储程序代码，处理器用于调用程序代码，以执行上述的方法步骤。

19、第四方面，提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述的方法步骤。

本文档来自技高网...

【技术保护点】

1.一种模型攻击方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述若所述第一响应内容不符合所述目标响应内容，则基于所述第一响应内容、所述第一攻击提示以及所述攻击任务之间的攻击相关性分数，确定与所述目标模型的对话方向，包括：

3.根据权利要求2所述的方法，其特征在于，所述若所述攻击相关性分数小于或等于所述历史相关性分数，则确定与所述目标模型的对话方向为对所述第一对话轮次进行重述或对所述第二对话轮次进行重述，包括：

4.根据权利要求3所述的方法，其特征在于，所述若所述重述次数小于所述预设重述次数阈值，则确定与所述目标模型的对话方向为对所述第一对话轮次进行重述，包括：

5.根据权利要求3所述的方法，其特征在于，所述若所述重述次数等于所述预设重述次数阈值，则确定与所述目标模型的对话方向为对所述第二对话轮次进行重述，包括：

6.根据权利要求2所述的方法，其特征在于，所述若所述攻击相关性分数大于所述历史相关性分数，则确定与所述目标模型的对话方向为进入第三对话轮次之后，还包括：

7.根据权利要

8.一种模型攻击装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括处理器、存储器、输入输出接口；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种模型攻击方法，其特征在于，所述方法包括：

5.根据权利要求3所述的方法，其特征在于，所述若所述重述次数等于...

【专利技术属性】
技术研发人员：张德岳，杨东东，邹权臣，刘昭，王旋，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人