基于禁忌搜索算法的大语言模型安全测试方法和装置制造方法及图纸

技术编号：41560143 阅读：15 留言：0更新日期：2024-06-06 23:44

本发明专利技术公开了一种基于禁忌搜索算法的大语言模型安全测试方法和装置，包括：根据大语言模型的安全规范，将有害内容进行分类，并针对每类有害内容构建问题示例以及对应的目标内容；将构建的非安全模板作为初始化变量，基于初始化变量并在目标内容用于构建优化目标值的基础上，采用禁忌搜索算法对非安全模板进行全局优化，得到优化后非安全模板；将优化后非安全模板与问题示例组成问题提示输入至大语言模型中经计算得到生成内容，通过关键词判断或自动标签判断来判断生成内容的安全性，这样可以实现对大语言模型的安全测试。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于面向大语言模型安全漏洞的检测，具体涉及一种基于禁忌搜索算法的大语言模型安全测试方法和装置。

技术介绍

1、大语言模型是近年来人工智能备受关注的方向之一，随着大语言模型的快速发展和应用，大语言模型已经在自然语言处理、计算机视觉、无人驾驶等领域被广泛使用。大语言模型与之前传统的神经网络等模型的比较大的区别就在于大语言模型所涉及到的参数是非常多的，同时训练的数据也很庞大，这样的特点使得大语言模型的性能和应用范围也更加广泛。

2、但由于大语言模型的预训练所需要的数据是大量的在线数据，这些大量的在线数据不乏很多有害的数据。所以在此基础上，如果将包含有害内容的提示输入到大语言模型中，大语言模型很有可能输出相应的有害的内容，这是和开发大语言模型的初衷是相违背的。所以，为了避免这样的现象，相关的开发人员或者研究人员采用模型微调或者人类反馈强化学习方法引导模型生成符合安全规范的内容。尽管如此，大语言模型在输出有害内容的问题上还是存在很多的安全漏洞，许多的越狱攻击试图越过大语言模型的安全机制来达到使得模型输出有害内容的效果。>

3、由于大语本文档来自技高网...

【技术保护点】

1.一种基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，所述采用禁忌搜索算法对非安全模板进行全局优化，包括：

3.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，对非安全模板进行邻域搜索并进行同义词替换得到新非安全模板，包括：

4.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，判断新非安全模板不存在于禁忌表，包括：

5.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在...

【技术特征摘要】

1.一种基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，所述采用禁忌搜索算法对非安全模板进行全局优化，包括：

4.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，判断新非安全模板不存在于禁忌表，包括：

5.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，基于生成内容response和目标内容tar计算目标值，包括：

6.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法，其特征在于，利用新非安全模板更新禁...

【专利技术属性】
技术研发人员：何柯阳，韩蒙，李荣昌，杜天宇，杨波，李莹，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人