【技术实现步骤摘要】
本专利技术属于面向大语言模型安全漏洞的检测,具体涉及一种基于禁忌搜索算法的大语言模型安全测试方法和装置。
技术介绍
1、大语言模型是近年来人工智能备受关注的方向之一,随着大语言模型的快速发展和应用,大语言模型已经在自然语言处理、计算机视觉、无人驾驶等领域被广泛使用。大语言模型与之前传统的神经网络等模型的比较大的区别就在于大语言模型所涉及到的参数是非常多的,同时训练的数据也很庞大,这样的特点使得大语言模型的性能和应用范围也更加广泛。
2、但由于大语言模型的预训练所需要的数据是大量的在线数据,这些大量的在线数据不乏很多有害的数据。所以在此基础上,如果将包含有害内容的提示输入到大语言模型中,大语言模型很有可能输出相应的有害的内容,这是和开发大语言模型的初衷是相违背的。所以,为了避免这样的现象,相关的开发人员或者研究人员采用模型微调或者人类反馈强化学习方法引导模型生成符合安全规范的内容。尽管如此,大语言模型在输出有害内容的问题上还是存在很多的安全漏洞,许多的越狱攻击试图越过大语言模型的安全机制来达到使得模型输出有害内容的效果。
>3、由于大语本文档来自技高网...
【技术保护点】
1.一种基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,所述采用禁忌搜索算法对非安全模板进行全局优化,包括:
3.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,对非安全模板进行邻域搜索并进行同义词替换得到新非安全模板,包括:
4.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,判断新非安全模板不存在于禁忌表,包括:
5.根据权利要求2所述的基于禁忌搜索算法的大语言模型安
...【技术特征摘要】
1.一种基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,所述采用禁忌搜索算法对非安全模板进行全局优化,包括:
3.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,对非安全模板进行邻域搜索并进行同义词替换得到新非安全模板,包括:
4.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,判断新非安全模板不存在于禁忌表,包括:
5.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,基于生成内容response和目标内容tar计算目标值,包括:
6.根据权利要求2所述的基于禁忌搜索算法的大语言模型安全测试方法,其特征在于,利用新非安全模板更新禁...
【专利技术属性】
技术研发人员:何柯阳,韩蒙,李荣昌,杜天宇,杨波,李莹,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。