一种多模态大模型的对抗攻击方法、装置及设备制造方法及图纸

技术编号：42458400 阅读：15 留言：0更新日期：2024-08-21 12:47

本申请公开了一种多模态大模型的对抗攻击方法、装置及设备，涉及大语言模型技术领域，该方法包括：通过多模态大模型对干净样本进行描述，以得到原始描述，干净样本为不对多模态大模型进行对抗攻击的样本；通过提示工程使多模态大模型基于原始描述生成目标描述，原始描述与目标描述的情感极性相反；根据目标描述生成对抗样本，对抗样本为对多模态大模型进行对抗攻击的样本；通过多模态大模型对对抗样本进行描述，以得到对抗样本描述；通过情感分析模型判断原始描述的情感极性以及对抗样本描述的情感极性是否相同，以得到对抗攻击结果，从而实现了对多模态大模型进行情感表达方面的对抗鲁棒性评估。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大语言模型，尤其涉及一种多模态大模型的对抗攻击方法、装置及设备。

技术介绍

1、近年来，随着chatgpt等多模态大语言模型(以下简称多模态大模型)在自然语言理解和生成中的显著表现，越来越多的多模态大模型被开发出来用于机器翻译、机器人聊天等下游任务。开发者通过将强大的大语言模型与用于视觉处理的视觉编码器visionencoder进行结合，使视觉-语言多模态大模型能够处理视觉输入，并表现出接近人类的图像理解以及文本生成能力，这种多模态大模型，如gpt-4,未来将被应用于各种图文生成、图文问答任务中，如新闻文章生成等。

2、在经历了大量人类语料训练，指令微调(instruction fine-tuning)以及人类反馈强化学习(reinforcement learning from human feedback,rlhf)后，多模态大模型不仅能够客观地描述事物，还能够用一些较为主观的词语形容事物的外貌，姿态等，进而使得大模型生成的输出具有了像人类一样的情感，也即多模态大模型具有类人的情感表达能力。

3、但由...

【技术保护点】

1.一种多模态大模型的对抗攻击方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标描述生成对抗样本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标描述生成对抗样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多模态大模型的模型参数以及所述目标描述生成所述对抗样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一对抗样本生成公式包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述多模态大模型的模型参数以及所述目标描述生成所述对抗样本，...

【技术特征摘要】

1.一种多模态大模型的对抗攻击方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标描述生成对抗样本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标描述生成对抗样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多模态大模型的模型参数以及所述目标描述生成所述对抗样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一对抗样本生成公式包括：

6.根据权利要求3所述的方法，...

【专利技术属性】
技术研发人员：周长宝，魏晓辉，岳恒山，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人