提示生成方法及相关装置、设备和存储介质制造方法及图纸

技术编号：46626551 阅读：1 留言：0更新日期：2025-10-14 21:23

本申请公开了一种提示生成方法及相关装置、设备和存储介质，其中，提示生成方法包括：基于在越狱提示中提取的第一关键词，得到第一关键词集；对第一关键词集进行关键词替换，得到第二关键词集；基于第二关键词集进行语句组合，得到新的越狱提示；基于越狱提示和新的越狱提示，得到越狱提示集；基于越狱提示集进行遗传筛选，得到若干目标提示。上述方案，能够提升越狱攻击数据的生成效率和生成质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，特别是涉及一种提示生成方法及相关装置、设备和存储介质。

技术介绍

1、近年来，大语言模型（large language model，llm）在自然语言处理任务中的表现令人瞩目，已被广泛应用于文本生成、自动问答、语言翻译等多个场景中。

2、然而，大语言模型在显著提升用户体验的同时，也暴露出许多潜在的安全隐患，其中之一便是越狱攻击（jailbreak attacks）。通过越狱攻击，攻击者能够绕开模型的安全策略，引导模型生成违背预期的、不符合道德规范，甚至具有社会危害性的相关内容。因此，越狱攻击的危害使得对大语言模型的安全检测与防御成为待解决的重要问题。在此过程中，越狱攻击数据发挥关键作用。有鉴于此，如何提升越狱攻击数据的生成效率和生成质量，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种提示生成方法及相关装置、设备和存储介质，能够提升越狱攻击数据的生成效率和生成质量。

2、为了解决上述技术问题，本申请第一方面提供了一种...

【技术保护点】

1.一种提示生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一关键词集进行关键词替换，得到第二关键词集，包括：

3.根据权利要求1所述的方法，其特征在于，所述越狱提示集通过目标轮数的关键词替换得到，在所述对所述第一关键词集进行关键词替换，得到第二关键词集之后，以及在基于所述越狱提示和所述新的越狱提示，得到越狱提示集之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述越狱提示集进行遗传筛选，得到若干目标提示，包括：

5.根据权利要求4所述的方法，其特征在于，所述衍生提示集包含基于所...

【技术特征摘要】

1.一种提示生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一关键词集进行关键词替换，得到第二关键词集，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述越狱提示集进行遗传筛选，得到若干目标提示，包括：

5.根据权利要求4所述的方法，其特征在于，所述衍生提示集包含基于所述越狱提示集交替执行的历次操作分别所生成的衍生提示，所述基于所述衍生提示集进行筛选，得到所述若干目标提示，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述衍生提示的权重因子，得到所述衍生提示的选择概率，包括：

7.根据权利要求5所述...

【专利技术属性】
技术研发人员：方四安，程飞，赵培，吴飞，张诗育，王洲，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人