基于模糊测试的大语言模型漏洞检测方法和装置制造方法及图纸

技术编号：40055790 阅读：7 留言：0更新日期：2024-01-16 21:54

本发明专利技术公开了一种基于模糊测试的大语言模型漏洞检测方法和装置，包括：筛选种子模版，对种子模版应用变异算子生成变异体模版，利用大语言模型基于变异体模版构建的非安全提示进行问题回答得到答案，利用判断模型判断答案的接受情况，并根据接受情况筛选变异体模版作为所选种子模版的孩子节点添加到种子池中，如此迭代搜索，搜索结束后种子池中所有模版均为会使大语言模型输出非安全问题答案，实现了对大语言模型的漏洞检测，该检测方法高效且通过禁止应用这些非安全模版可以实现大语言模型的漏洞防御，提升大语言模型问答时的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人机交互对话的安全检测。具体涉及一种基于模糊测试的大语言模型漏洞检测方法和装置。

技术介绍

1、大语言模型是近年来人工智能领域中的重要研究方向之一，大语言模型以其卓越的自然语言处理能力，彻底改变了自然语言处理领域。大语言模型虽然在很多应用领域取得了巨大的成功，在被应用到人机交互对话
中时，人机交互过程中暴露出来一些严重的安全问题。通过输入特定的对抗性提示，大语言模型可以输出有害或非法活动的回答内容。例如，在电商客服服务过程中，通过在大语言模型中输入关于机密信息窃取的对抗性提示，大语言模型会泄露相关的个人隐私信息，造成人们对个人隐私泄露的担忧。

2、现有大语言模型的有效漏洞检测方式主要是依赖人工检测，但这种方式存在以下的局限性：（1）不可扩展。随着大语言模型开发过程中不断迭代，无法将以往的测试用例直接用来测试新版本大语言模型；（2）成本高。有效的漏洞测试提示的制作需要深入的专业知识和大量的时间投入。这使得该过程成本高昂，尤其是在考虑大语言模型的不断发展和更新时。（3）覆盖率低。人工方法可能会错过某些漏洞。

技术实现思路

1、鉴于上述，本专利技术的目的是提供一种基于模糊测试的大语言模型漏洞检测方法和装置，实现对大语言模型漏洞的快速检测，并提高大语言模型的漏洞检测质量。

2、为实现上述专利技术目的，实施例提供的一种基于模糊测试的大语言模型漏洞检测方法，所述大语言模型为人机交互应用场景中用于问答的大语言模型，包括以下步骤：

3、筛选部

4、采用蒙特卡洛树搜索算法每轮从种子池中进行路径搜索并筛选一个种子模版，对所选种子模版应用变异算子生成变异体模版；

5、将非安全问题插入变异体模版生成非安全提示，利用大语言模型基于非安全提示进行问题回答得到答案；

6、利用判断模型判断答案的接受情况，根据接受情况筛选变异体模版作为所选种子模版的孩子节点添加到种子池中，同时更新被添加的变异体模版中相应变异结构的权重以用于下一轮应用变异算子；

7、搜索结束后种子池中所有模版均为会使大语言模型输出非安全问题答案的非安全模版，实现了对大语言模型的漏洞检测。

8、优选地，筛选部分手工制作的漏洞测试模板，包括：

9、获取手工制作的漏洞测试模板集和有害意图的非安全问题集，并将非安全问题输入到漏洞测试模板中形成初始非安全提示，利用大语言模型基于初始非安全提示进行问题回答得到初始答案，利用判断模型判断初始答案的接受情况，其中，接受情况包括拒绝、部分拒绝、部分接受以及接受；

10、根据初始答案的接受情况筛选一个最小漏洞测试模板集，使得非安全问题集中的问题总能在最小漏洞测试模板集中找到一个漏洞测试模板会让大语言模型的输出答案为接受或者部分接受，该最小漏洞测试模板集即为筛选的部分手工制作的漏洞测试模板。

11、优选地，对漏洞测试模板进行结构划分后作为初始种子模版加入到种子池，包括：

12、将漏洞测试模板进行结构划分得到结构组{[场景信息][问题信息][行为信息][约束信息]}，其中，问题信息为占位符，即非安全问题插入到问题信息对应的占位符处形成非安全提示；

13、将以结构组表示的漏洞测试模板作为初始种子模版加入到种子池。

14、优选地，在对漏洞测试模板进行结构划分后，还初始化结构组中每个结构的权重，包括：

15、将非安全问题插入到漏洞测试模板对应结构组的占位符中形成非安全提示，计算非安全提示对应的大语言模型答案在分类模型中的注意力矩阵，并将注意力矩阵初始为结构组中每个结构的权重。

16、优选地，种子池中的模版作为蒙特卡洛树的节点，采用蒙特卡洛树搜索算法每轮从种子池中进行路径搜索并筛选一个种子模版，包括：

17、路径搜索：搜索判断当前节点不为叶子节点时，遍历当前节点的孩子节点，并计算孩子节点各自的uct分数，将uct分数最高的孩子节点加入搜索路径并将uct分数最高的孩子节点作为下次判断的当前节点；

18、搜索终止判断：生成随机数，当随机数低于阈值时返回搜索路径，将搜索路径中最后一个节点作为筛选的一个种子模版，否则重复路径搜索过程；

19、其中，uct分数的计算公式为：

20、；

21、其中，表示uct分数，表示每个孩子节点累计的平均奖励，表示当前节点被选中的次数，表示当前节点的孩子节点被选中的次数。

22、优选地，对所选种子模版应用变异算子生成变异体模版，包括：

23、所述变异算子为对所选种子模版对应结构组中每个结构进行变异处理，包括全局交叉、全局重组、局部生成、局部扩展、局部缩写、局部重构以及局部交叉变异处理；

24、经过变异处理后的所选种子模版即为变异体模版。

25、优选地，根据接受情况筛选变异体模版作为所选种子模版的孩子节点添加到种子池中，包括：

26、当变异体模版的答案判断结果为拒绝或部分拒绝则丢弃变异体模版，当变异体模版的答案判断结果为接受或部分接受则将变异体模版作为所述种子模版的孩子节点并添加到种子池中。

27、优选地，更新被添加的变异体模版中相应变异结构的权重，包括：

28、当被添加的变异体模版的答案判断结果为拒接或者部分拒绝，且对应的所选种子模版的答案判断结果为接受或部分接受时，则按照幅度增加被添加的变异体模版中相应变异结构的权重，其中表示模板的答案判断结果变化模式的累计次数，答案判断结果变化模式是指所选种子模版的答案判断结果与被添加的变异体模版的答案判断结果不同，则为一次变化模式，表示结构被选中进行变异的次数，表示奖励参数，取值为(0,0.5]；

29、当被添加的变异体模版的答案判断结果为接受且对应的所选种子模版的答案判断结果为部分接受时，或当被添加的变异体模版的答案判断结果为部分接受且对应的所选种子模版的答案判断结果为接受时，或当被添加的变异体模版的答案判断结果为拒绝且对应的所选种子模版的答案判断结果为部分拒绝时，或当被添加的变异体模版的答案判断结果为部分拒绝且对应的所选种子模版的答案判断结果为拒绝时，则按照幅度增加被添加的变异体模版中相应变异结构的权重，表示惩罚参数，取值为(0,0.2]，且大于；

30、当被添加的变异体模版的答案判断结果与对应的所选种子模版的答案判断结果相同时，则减小被添加的变异体模版中相应变异结构的权重。

31、优选地，采用以下方式更新所选种子模版的奖励值：

32、；

33、；

34、其中，和分别表示搜索路径中节点更新前和更新后累计的平均奖励，表示搜索路径中节点被选中的次数，和表示搜索路径中节点更新前和更新后的奖励值，和均为常数，用于减少路径过长时对当前节点和其祖先节点的奖励，取值范围为，用于防止奖励过小甚至为负数，取值范围为，表示所选种子模版本文档来自技高网...

【技术保护点】

1.一种基于模糊测试的大语言模型漏洞检测方法，其特征在于，所述大语言模型为人机交互应用场景中用于问答的大语言模型，包括以下步骤：

2.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，筛选部分手工制作的漏洞测试模板，包括：

3.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，对漏洞测试模板进行结构划分后作为初始种子模版加入到种子池，包括：

4.根据权利要求3所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，在对漏洞测试模板进行结构划分后，还初始化结构组中每个结构的权重，包括：

5.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，种子池中的模版作为蒙特卡洛树的节点，采用蒙特卡洛树搜索算法每轮从种子池中进行路径搜索并筛选一个种子模版，包括：

6.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，对所选种子模版应用变异算子生成变异体模版，包括：

7.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，根据接受

8.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，更新被添加的变异体模版中相应变异结构的权重，包括：

9.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，所述方法还包括更新搜索路径中节点的奖励值以用于下一轮计算UCT分数，具体采用以下方式更新节点的奖励值：

10.一种基于模糊测试的大语言模型漏洞检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的基于模糊测试的大语言模型漏洞检测方法。

...

【技术特征摘要】

1.一种基于模糊测试的大语言模型漏洞检测方法，其特征在于，所述大语言模型为人机交互应用场景中用于问答的大语言模型，包括以下步骤：

2.根据权利要求1所述的基于模糊测试的大语言模型漏洞检测方法，其特征在于，筛选部分手工制作的漏洞测试模板，包括：

6.根据权利要求1所述的基于模糊测试的大语言...

【专利技术属性】
技术研发人员：韩蒙，杨康，徐小良，李荣昌，张龙源，林昶廷，王滨，马治国，
申请(专利权)人：浙江君同智能科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人