System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种物理环境下基于优化的多模态LLM对抗攻击方法技术_技高网

一种物理环境下基于优化的多模态LLM对抗攻击方法技术

技术编号:40357510 阅读:9 留言:0更新日期:2024-02-09 14:43
本发明专利技术属于大语言模型的安全技术领域,公开了一种物理环境下基于优化的多模态LLM对抗攻击方法,包括:选取图像数据集,对图像进行特征提取及可视化工作,并将随机旋转后的补丁贴到干净图像生成对抗样本,针对对抗样本区域添加正态分布增强和动量增强梯度;将计算对抗样本和目标图片的相似度并循环迭代更新补丁,将循环后的补丁贴在干净图像上面生成对抗样本,计算生成的对抗样本与预定义的目标文本之间的CLIP评分。本发明专利技术选择在图像中选取一块与补丁大小相符的区域进行扰动,从而在物理环境中实现明显的攻击效果,这一特性赋予大型语言模型更强的鲁棒性,使得对抗性研究变得更为具有深刻的研究价值。

【技术实现步骤摘要】

本专利技术属于大语言模型的安全,具体的说涉及一种物理环境下基于优化的多模态llm对抗攻击方法。


技术介绍

1、随着多模态语言与视觉模型(language and vision models,以下简称llm)在诸如自动驾驶、智能监控和机器人导航等物理环境中的广泛应用,其在感知、理解和决策任务中所扮演的角色愈发重要。

2、然而,研究表明,通过向输入图像中添加人类无法感知的对抗补丁,可以导致llm无法产生准确的输出结果。

3、其中一些方法也表明,这些攻击在现实世界中是可行的,即通过修改一个物体并用摄像机拍摄它,然后,该对象的已知结构在其上生成一个对抗补丁,此类扰动图像输入llm后,其所产生的语义内容将发生显著变化。

4、针对现有的对抗攻击方法如fgsm、pgd以及添加随机全局扰动等,研究发现它们普遍存在一个共性问题,即在物理环境下的攻击效果较为微弱,仅在进行全局扰动攻击时,攻击效果才相对显著。


技术实现思路

1、为了解决上述技术问题,本专利技术提供了一种物理环境下基于优化的多模态llm对抗攻击方法,与全局扰动不同的是,本专利技术选择在图像中选取一块与补丁大小相符的区域进行扰动,从而在物理环境中实现明显的攻击效果,这一特性赋予大型语言模型更强的鲁棒性,使得对抗性研究变得更为具有深刻的研究价值。

2、为了达到上述目的,本专利技术是通过以下技术方案实现的:

3、本专利技术是一种物理环境下基于优化的多模态llm对抗攻击方法,该方法包括以下步骤:

4、步骤1、选择一个图像编码器fφ(x)和一个文本编码器作为代理模型即clip代理模型,并且将ctar表示为h受害者模型返回的目标响应;

5、步骤2、对图像进行预处理,将输入图像转换为clip代理模型所需要的格式,采用随机转换方法将补丁应用到图像上;

6、步骤3、基于步骤2处理后的图像,利用正态分布增强更新策略,采用基线的方法,利用共同分布随机搜索适当的敌对扰动;

7、步骤4、基于步骤2处理后的图像,用基于动量的对抗性扰动更新策略代替步骤3的正态分布增强更新策略;

8、步骤5、通过对步骤2处理后的图像进行编码,以获取处理后的图像的特征向量xadv,将代理模型的ctar和xadv的特征匹配起来,xadv应满足

9、

10、||xcle-xadv||p≤ε

11、式中,图像编码器和文本编码器选择具有相同的输出尺寸,它们的内部乘积表明了ctar和xadv的跨通道相似性,约束优化问题用投影梯度下降法(pgd)来求解;

12、步骤6、将对抗样本输入到llm,执行图像到文本并存储生成的响应;

13、步骤7、使用不同类型的clip代理模型的文本编码器来评估步骤6生成的响应和预定义的目标响应ctar之间的相似性。

14、本专利技术的进一步改进在于:所述步骤2中的图像预处理方法具体为:

15、步骤2.1.1、对输入图像进行大小调整、中心裁剪,转换为rgb格式以及转换为张量形式:使用pytorch的torchvision库中的resize图像变换类将输入图像调整为与clip模型的视觉输入分辨率相同,使用双三次插值方法(bicubic)进行插值,使用pytorch的torchvision库中的centercrop图像裁剪工具类将图像从中心裁剪为与clip代理模型的视觉输入分辨率相同的大小,通过python中的pil库打开图像,然后将转换为rgb格式的图像利用numpy数组的convert_to_tensor方法转化为张量;

16、步骤2.1.2、对图像归一化:对步骤2.1.1处理后的图像进行调整,将范围内的数据进行归一化处理,减少由于特异性数据导致的图像区域选择错误。

17、本专利技术的进一步改进在于:步骤2中采用随机转换方法将补丁应用到图像上具体包括如下步骤:

18、步骤2.2.1、原始图像和待添加的补丁图像被加载;

19、步骤2.2.2、旋转或缩放或翻转的随机转换方法被选定,随机生成相应的变换参数,随机噪声被放置在补丁的顶部,对图像的亮度和对比度进行随机变化,这些随机参数被应用到补丁图像上,使其经历变换;

20、步骤2.2.3、随机选择一个位置在原始图像上,以确保补丁的加入不会超出图像边界;

21、步骤2.2.4、经过转换的补丁图像被叠加到原始图像的选定位置,生成一个新的图像,其中包含添加了补丁的信息。

22、本专利技术的进一步改进在于:所述步骤3中采用的正态分布增强更新策略具体为:

23、iadv=iadv_prev+pfinal

24、

25、其中,iadv和iadv_prev指攻击图像在当前攻击步骤与之前的攻击步骤,pfinal表示最终对抗扰动在当前攻击步骤,porg_normal是原始的对抗扰动基线,padd_normal是额外的对抗扰动。

26、本专利技术的进一步改进在于:步骤4中,所述基于动量的对抗性扰动更新策略具体包括如下步骤:

27、步骤4.1、将步骤2处理后的图像的像素值范围调整到0-1之间;

28、步骤4.2、将像素值范围内的数据进行归一化处理,减少由于特异性数据导致的图像区域选择错误;

29、步骤4.3、基于对抗样本,用基于动量的对抗性扰动更新策略代替正态分布增强更新策略:

30、

31、padd_m=θ*padd_m_cur+(1-θ)*padd_m_mean,θ∈(0,1)

32、padd_m=θ*padd_m_cur+(1-θ)*padd_m_mean,θ∈(0,1)

33、式中padd_m为在原始随机正态1上添加的最终动量增强对抗扰动,动量增强对抗扰动θ控制当前对抗扰动方向和之前所有对抗扰动计算的平均方向所产生的效果,θ设置在0~1的范围内;

34、步骤4.4、使用反向传播backward()算法计算对抗扰动的梯度:

35、

36、式中,是通过链式法则逐层计算的;

37、步骤4.5、使用非打印性评分损失lnps计算损失,确保了正态分布增强更新策略偏爱具有平滑色彩过渡的图像,并防止噪声图像,表示为:

38、

39、式中,ppatch是补丁p中的一个像素,cprint是一组可打印颜色c中的一种颜色;

40、步骤4.6、根据补丁p计算图像的总变化量ltv:

41、

42、如果相邻像素相似,则分数低,如果相邻像素不同,则分数高。

43、步骤4.7、总损失函数如下:

44、l=αlnps+βltv

45、式中,α和β均为超参数,使用超参数α和β分别缩放ltv和lnps,然后使用基于动量的对抗性扰动更新策略优化l,因此冻结clip代理模型中的所有权重和偏差,并且只本文档来自技高网...

【技术保护点】

1.一种物理环境下基于优化的多模态LLM对抗攻击方法,其特征在于:所述多模态LLM对抗攻击方法包括以下步骤:

2.根据权利要求1所述的一种物理环境下基于优化的多模态LLM对抗攻击方法,其特征在于:所述步骤2中的图像预处理方法具体为:

3.根据权利要求2所述的一种物理环境下基于优化的多模态LLM对抗攻击方法,其特征在于:步骤2中采用随机转换方法将补丁应用到图像上具体包括如下步骤:

4.根据权利要求3所述的一种物理环境下基于优化的多模态LLM对抗攻击方法,其特征在于:所述步骤3中采用的正态分布增强更新策略具体为:

5.根据权利要求3所述的一种物理环境下基于优化的多模态LLM对抗攻击方法,其特征在于:步骤4中,所述基于动量的对抗性扰动更新策略具体包括如下步骤:

【技术特征摘要】

1.一种物理环境下基于优化的多模态llm对抗攻击方法,其特征在于:所述多模态llm对抗攻击方法包括以下步骤:

2.根据权利要求1所述的一种物理环境下基于优化的多模态llm对抗攻击方法,其特征在于:所述步骤2中的图像预处理方法具体为:

3.根据权利要求2所述的一种物理环境下基于优化的多模态llm对抗攻击方法,其特征在于:步骤2中采用...

【专利技术属性】
技术研发人员:季一木李昆珈刘尚东徐驰张欣同万玲莉李海天
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1