基于图片重构损失的迁移对抗攻击方法、装置及电子设备制造方法及图纸

技术编号：43494002 阅读：22 留言：0更新日期：2024-11-29 17:02

本发明专利技术公开了基于图片重构损失的迁移对抗攻击方法、装置及电子设备，属于视觉语言大模型技术领域。方法包括：以CLIP的图片编码器作为编码器并训练基于MAE架构的解码器，获得训练好的编码器‑解码器模型；将原始图片输入编码器‑解码器模型，同时基于投影梯度下降法最大化编码器‑解码器模型输出图片相对于原始图片的重构损失，生成对抗样本；将对抗样本迁移至视觉语言大模型进行攻击，检测视觉语言大模型的鲁棒性。本发明专利技术通过增大图片重构损失进行优化，并生成对抗样本用于对视觉语言大模型进行攻击，可拓展至不同的文本提示和场景下，具有较好的可拓展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉语言大模型，尤其涉及一种基于图片重构损失的迁移对抗攻击方法、装置及电子设备。

技术介绍

1、视觉语言大模型指具备处理视觉与语言模态信息的大模型；相较于语言大模型，视觉语言大模型可以结合视觉模态的信息，因此可以处理现实世界中更广泛的问题。目前视觉语言大模型，如llava、qwen-vl、gpt-4v等，在多种任务上，如图片分类、视觉问答、图文匹配等，均展示了不俗的性能。然而，随着视觉语言大模型越来越多地进入实际应用，其安全性和鲁棒性也引起了广泛的关注和担忧。用户希望视觉语言大模型能够足够鲁棒，即模型在面对微小扰动或噪声时可以保持结果稳定。对于视觉语言大模型的鲁棒性评估，有利于研究者和使用者了解大模型的可靠性，可以在一定程度上避免由于大模型漏洞导致的不当使用和危害性结果，并且为视觉语言大模型的进一步发展与改进提供了方向和思路。

2、对抗攻击指在模型的输入中添加一些微小的且一般对人类判断不会产生明显影响的噪声，诱使模型做出错误的决策。对抗攻击是模型的鲁棒性评估的其中一种方法，通过研究模型受到对抗样本影响的程度，探...

【技术保护点】

1.一种基于图片重构损失的迁移对抗攻击方法，其特征在于，包括：

2.如权利要求1所述的一种基于图片重构损失的迁移对抗攻击方法，其特征在于，所述获得训练好的编码器-解码器模型包括：冻结基于CLIP模型的图片编码器的参数，采用训练数据集对基于MAE架构的解码器进行训练，得到训练好的编码器-解码器模型。

3.如权利要求2所述的一种基于图片重构损失的迁移对抗攻击方法，其特征在于，所述冻结基于CLIP模型的图片编码器的参数，采用训练数据集对基于MAE架构的解码器进行训练，得到训练好的编码器-解码器模型，包括：

4.如权利要求1所述的一种基于图片重构损失的迁移对抗...

【技术特征摘要】

1.一种基于图片重构损失的迁移对抗攻击方法，其特征在于，包括：

2.如权利要求1所述的一种基于图片重构损失的迁移对抗攻击方法，其特征在于，所述获得训练好的编码器-解码器模型包括：冻结基于clip模型的图片编码器的参数，采用训练数据集对基于mae架构的解码器进行训练，得到训练好的编码器-解码器模型。

3.如权利要求2所述的一种基于图片重构损失的迁移对抗攻击方法，其特征在于，所述冻结基于clip模型的图片编码器的参数，采用训练数据集对基于mae架构的解码器进行训练，得到训练好的编码器-解码器模型，包括：

4.如权利要求1所述的一种基于图片重构损失的迁移对抗攻击方法，其特征在于，在步骤s102中，基于投影梯度下降法最大化所述编码器-解码器模型输出图片相对于所述原始图片的重构损失。

5.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员：张淼萱，何哲琪，刘颖，张洪刚，杨熙，林咏华，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人