【技术实现步骤摘要】
本专利技术属于人工智能安全领域模型保护方向,具体涉及一种基于强化学习的多模态大模型黑盒防御方法及装置。
技术介绍
1、随着大语言模型融合多模态的高速发展,多模态大模型应运而生,其代表性应用包括openai公司的gpt-4o及谷歌公司的gemini 1.5。多模态大模型结合了视觉与文本模态,能够实现图像标注、视觉问答等多种任务,极大扩展了传统大语言模型的应用范围。然而,这种多模态的引入产生了更多的模型安全隐患,特别是多模态大模型容易受到跨模态越狱攻击的威胁。越狱攻击利用存在潜在风险的多模态输入,以达到破坏多模态大模型正常工作的目的。因此,为保证多模态大模型在现实世界场景中的应用安全,解决上述安全隐患变得至关重要。
2、现有多模态大模型越狱攻击的防御方法大致可以分为两类:(1)白盒防御,通过对抗训练或微调使多模态大模型在参数空间上更具鲁棒性;(2)黑盒防御,通过过滤器、检测器或基于安全驱动的系统提示保护模型。相对而言,黑盒防御比白盒防御更加灵活和实用,因为它可以在无需访问模型参数的情况下保护目标多模态大模型。
3、现
...【技术保护点】
1.一种基于强化学习的多模态大模型黑盒防御方法,用于使多模态大模型根据越狱文本和对应越狱图像生成良性回复,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
3.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
4.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
5.根据权利要求4所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
6.一种基于强化学习的多模态大模型黑盒防御装置,用于使多模态大模型根
...【技术特征摘要】
1.一种基于强化学习的多模态大模型黑盒防御方法,用于使多模态大模型根据越狱文本和对应越狱图像生成良性回复,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
3.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。