一种物理环境下基于优化的多模态LLM对抗攻击方法技术

技术编号：40357510 阅读：57 留言：0更新日期：2024-02-09 14:43

本发明专利技术属于大语言模型的安全技术领域，公开了一种物理环境下基于优化的多模态LLM对抗攻击方法，包括：选取图像数据集，对图像进行特征提取及可视化工作，并将随机旋转后的补丁贴到干净图像生成对抗样本，针对对抗样本区域添加正态分布增强和动量增强梯度；将计算对抗样本和目标图片的相似度并循环迭代更新补丁，将循环后的补丁贴在干净图像上面生成对抗样本，计算生成的对抗样本与预定义的目标文本之间的CLIP评分。本发明专利技术选择在图像中选取一块与补丁大小相符的区域进行扰动，从而在物理环境中实现明显的攻击效果，这一特性赋予大型语言模型更强的鲁棒性，使得对抗性研究变得更为具有深刻的研究价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大语言模型的安全，具体的说涉及一种物理环境下基于优化的多模态llm对抗攻击方法。

技术介绍

1、随着多模态语言与视觉模型(language and vision models，以下简称llm)在诸如自动驾驶、智能监控和机器人导航等物理环境中的广泛应用，其在感知、理解和决策任务中所扮演的角色愈发重要。

2、然而，研究表明，通过向输入图像中添加人类无法感知的对抗补丁，可以导致llm无法产生准确的输出结果。

3、其中一些方法也表明，这些攻击在现实世界中是可行的，即通过修改一个物体并用摄像机拍摄它，然后，该对象的已知结构在其上生成一个对抗补丁，此类扰动图像输入llm后，其所产生的语义内容将发生显著变化。

4、针对现有的对抗攻击方法如fgsm、pgd以及添加随机全局扰动等，研究发现它们普遍存在一个共性问题，即在物理环境下的攻击效果较为微弱，仅在进行全局扰动攻击时，攻击效果才相对显著。

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种物理环...

【技术保护点】

1.一种物理环境下基于优化的多模态LLM对抗攻击方法，其特征在于：所述多模态LLM对抗攻击方法包括以下步骤：

2.根据权利要求1所述的一种物理环境下基于优化的多模态LLM对抗攻击方法，其特征在于：所述步骤2中的图像预处理方法具体为：

3.根据权利要求2所述的一种物理环境下基于优化的多模态LLM对抗攻击方法，其特征在于：步骤2中采用随机转换方法将补丁应用到图像上具体包括如下步骤：

4.根据权利要求3所述的一种物理环境下基于优化的多模态LLM对抗攻击方法，其特征在于：所述步骤3中采用的正态分布增强更新策略具体为：

5.根据权利要求3所述的一种物...

【技术特征摘要】

1.一种物理环境下基于优化的多模态llm对抗攻击方法，其特征在于：所述多模态llm对抗攻击方法包括以下步骤：

2.根据权利要求1所述的一种物理环境下基于优化的多模态llm对抗攻击方法，其特征在于：所述步骤2中的图像预处理方法具体为：

3.根据权利要求2所述的一种物理环境下基于优化的多模态llm对抗攻击方法，其特征在于：步骤2中采用...

【专利技术属性】
技术研发人员：季一木，李昆珈，刘尚东，徐驰，张欣同，万玲莉，李海天，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人