当前位置: 首页 > 专利查询>复旦大学专利>正文

基于强化学习的多模态大模型黑盒防御方法及装置制造方法及图纸

技术编号:44299735 阅读:45 留言:0更新日期:2025-02-18 20:18
本发明专利技术提供了一种基于强化学习的多模态大模型黑盒防御方法及装置,具有这样的特征,包括以下步骤:步骤S1,通过图像净化器对越狱图像进行净化生成净化图像,并通过文本净化器对越狱文本进行净化生成净化文本;步骤S2,将净化文本输入良性引导生成器生成引导文本;步骤S3,将净化文本和引导文本进行拼接,得到拼接文本;步骤S4,将拼接文本和净化图像一同输入多模态大模型,生成良性回复。总之,本方法能够提高多模态大模型对越狱攻击的防御能力,并对输入生成对应的良性回复。

【技术实现步骤摘要】

本专利技术属于人工智能安全领域模型保护方向,具体涉及一种基于强化学习的多模态大模型黑盒防御方法及装置


技术介绍

1、随着大语言模型融合多模态的高速发展,多模态大模型应运而生,其代表性应用包括openai公司的gpt-4o及谷歌公司的gemini 1.5。多模态大模型结合了视觉与文本模态,能够实现图像标注、视觉问答等多种任务,极大扩展了传统大语言模型的应用范围。然而,这种多模态的引入产生了更多的模型安全隐患,特别是多模态大模型容易受到跨模态越狱攻击的威胁。越狱攻击利用存在潜在风险的多模态输入,以达到破坏多模态大模型正常工作的目的。因此,为保证多模态大模型在现实世界场景中的应用安全,解决上述安全隐患变得至关重要。

2、现有多模态大模型越狱攻击的防御方法大致可以分为两类:(1)白盒防御,通过对抗训练或微调使多模态大模型在参数空间上更具鲁棒性;(2)黑盒防御,通过过滤器、检测器或基于安全驱动的系统提示保护模型。相对而言,黑盒防御比白盒防御更加灵活和实用,因为它可以在无需访问模型参数的情况下保护目标多模态大模型。

3、现有的黑盒防御方法主要本文档来自技高网...

【技术保护点】

1.一种基于强化学习的多模态大模型黑盒防御方法,用于使多模态大模型根据越狱文本和对应越狱图像生成良性回复,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

3.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

4.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

5.根据权利要求4所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

6.一种基于强化学习的多模态大模型黑盒防御装置,用于使多模态大模型根据越狱文本和对应越狱...

【技术特征摘要】

1.一种基于强化学习的多模态大模型黑盒防御方法,用于使多模态大模型根据越狱文本和对应越狱图像生成良性回复,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

3.根据权利要求1所述的基于强化学习的多模态大模型黑盒防御方法,其特征在于:

【专利技术属性】
技术研发人员:马兴军赵蕴涵姜育刚
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1