一种基于协同多模态交互的AI模型安全评估方法技术

技术编号：42304817 阅读：15 留言：0更新日期：2024-08-14 15:51

本发明专利技术属于人工智能多模态模型安全技术领域，具体为一种基于协同多模态交互的AI模型安全评估方法。本发明专利技术聚焦于黑盒迁移攻击，使用强有力的对抗攻击手段，对目标多模态模型进行攻击，以模型在受到攻击后的性能表现来进一步评估其安全性；具体包括：选定待攻击的源模型和目标模型，选定评估模型所需的待攻击图片以及文本，对选定的攻击图片和文本进行预处理，根据协同多模态交互算法生成图片以及文本的对抗样本，评估模型性能；在协同多模态交互过程中，融合嵌入两种策略：嵌入引导，利用多模态特征空间中的相似嵌入进行文本攻击；交互增强，利用交互攻击中的梯度信息，生成更鲁棒的对抗样本，进行更有效评估AI多模态模型的安全性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能多模态模型安全，具体涉及一种基于协同多模态交互的ai模型安全评估方法。

技术介绍

1、近年来，随着人工智能技术的快速发展,它为人类社会带来了巨大的变革,在诸多领域发挥着重要作用,受到了广泛关注。其中,多模态人工智能模型通过融合不同模态(如视觉、语言等)的信息,展现出强大的认知能力,在多个领域具有广泛的应用前景。视觉-语言预训练模型作为一种典型的多模态模型,能够学习视觉和语言之间的内在相关性,为视觉和语言相关的任务提供高质量的特征表示,在图像文本检索、图像描述、视觉问答等任务中取得了卓越的性能。视觉语言预训练模型为多个领域提供了通用解决方案,如教育领域的辅助教学、医疗领域的影像诊断、内容创作领域的辅助设计等,为人类的工作和生活带来了诸多便利。然而,视觉-语言预训练模型容易受到对抗样本的攻击,对其安全性和鲁棒性构成了威胁。

2、当前的ai模型评估方法往往忽视不同模态之间的相互作用，导致评估结果的准确性和泛化能力不足。传统评估方法往往只关注单一数据模态，忽略多模态数据之间的复杂关系，无法全面评估多模态模型的性能。这种局限性使得现有的ai模型容易受到针对特定模态的攻击，从而降低模型的安全性能。因此，有必要提出一种新颖的评估方法，以充分考虑模态间的交互，并提高对抗攻击的检测和防御能力，从而保障多模态模型的安全性能。

技术实现思路

1、本专利技术的目的在于提出一种基于协同多模态交互的ai模型评估方法，旨在建立一种全面的评估框架，通过综合考虑多模态数据之间的相互

2、本专利技术提供的基于协同多模态交互的ai模型安全评估方法，聚焦于黑盒迁移攻击，使用强有力的对抗攻击手段，对目标多模态模型进行攻击，以模型在受到攻击后的性能表现来进一步评估其安全性。具体包括：选定待攻击的源模型和目标模型，选定评估模型所需的待攻击图片以及文本，对选定的攻击图片和文本进行预处理，根据协同多模态交互算法生成图片以及文本的对抗样本，评估模型性能。在协同多模态交互过程中，融合嵌入引导和交互增强两种策略，嵌入引导利用多模态特征空间中的相似嵌入进行文本攻击，而交互增强则充分利用交互攻击中的梯度信息，从而生成更鲁棒的对抗样本，进行更有效评估ai多模态模型的安全性能。具体步骤如下：

3、步骤1：选择待攻击的视觉语言预训练模型，具体包括选定待攻击的源模型和目标模型；

4、本专利技术中，选择albef、tcl、clip_vit和clip_cnn这四个先进的视觉语言预训练模型来模拟黑盒攻击的场景。具体地，将albef、tcl、clipcnn和clipvit中的任意一个模型作为生成对抗样本的源模型,剩余三个模型作为评估对抗样本的目标黑盒模型。源模型用于训练协同多模态交互算法并生成初始对抗样本。生成的对抗样本首先用于攻击源模型本身,评估算法在白盒设置下的性能。更重要的是,这些对抗样本将迁移攻击到其余三个作为目标黑盒模型的视觉语言预训练模型。

5、上述这些模型在处理视觉与语言信息的能力上具有不同的特点和优势，从而能够提供多样化的评估视角。在现实场景中，攻击者往往无法直接获取多模态理解模型内部的参数信息以及训练数据，这意味着他们只能通过观察模型的输入和输出来部署攻击，这种攻击手段被称为黑盒攻击。对于目前的视觉语言预训练模型来说，针对不同的下游任务，根据输入的文本和图像信息来输出文本与图像的关联度、图像描述、文本标注等结果。为了更好地模拟实际情景，本专利技术遵循黑盒攻击的场景设定，将待评估的图像与文本信息输入到视觉语言预训练模型中，我们只能得到模型将其处理后的输出信息。最后通过分析这些输出结果来评估模型的性能，进一步确保其鲁棒性和安全性，以albef模型为例，利用其生成的对抗样本来评估其他模型的鲁棒性来模拟黑盒攻击的场景。通过选择多个不同的预训练模型，我们可以更全面地评估目标模型的鲁棒性和安全性，从而提高评估的准确性和可靠性。

6、步骤2：选择生成多模态对抗样本所需的待攻击图像和文本。

7、根据实际需求，我们从数据集中提取选定图像以及与每张选定图像相关联的多个描述文本，并确保这些描述文本能够全面地覆盖图像的各个特征和语义信息。例如，针对flickr30k数据集，本专利技术将整个数据分为250个批次，每个批次包含4张图片以及对应的20条描述文本；针对mscoco数据集，本专利技术将其分为1250个批次，每个批次同样包含了4张图片以及对应的20条描述文本。在这一步骤中，我们特别注意选择描述文本的多样性和相关性，以确保对模型的攻击具有代表性和普适性。

8、步骤3：对选定的攻击图片和文本进行预处理。

9、在此步骤中，我们将选定的攻击图片和文本输入到视觉语言预训练模型中，以获取它们的特征向量。首先，对图像进行预处理，包括图像的归一化、尺寸调整等操作，以确保它们符合模型的输入要求。然后，将处理后的图像送入模型中，提取出图像的特征表示。对于文本部分，先进行文本的分词、编码等预处理操作，然后将处理后的文本输入模型中，获取文本的语义特征向量。通过这一步骤，我们能够获得图像和文本的特征表示，为后续的对抗样本生成和模型评估提供基础支持。

10、步骤4：根据协同多模态交互算法生成图片以及文本的对抗样本。

11、该算法的核心优化目标是最大化图像模态与文本模态在多模态对齐空间中的距离,使得对抗图像与对抗文本在语义上尽可能地不一致。在文本攻击阶段,通过嵌入引导机制,选择相似的词嵌入来替换原文本中的单词,并将此过程中产生的图像梯度信息存储，以保持对抗样本的语义相似性和强迁移性。在图像攻击阶段，首先利用文本信息对图像进行扰动，使其尽可能远离扰动后的文本集。然后，通过前步积累的梯度信息优化对抗性图像，以进一步拉远对抗性图像与对抗性文本的距离。通过上述协同优化过程,最大化图像模态与文本模态在多模态对齐空间中的距离,生成具有强迁移性的对抗性图像和对抗性文本。

12、步骤5：评估模型性能。

13、利用步骤4得到的具有强迁移性的对抗图像和对抗文本,在不同的视觉语言预训练模型上进行评估测试。具体来说,将这些对抗样本输入到多个黑盒视觉语言预训练模型中,在这些模型的下游任务上(如图像-文本检索、视觉问答等)进行推理,观察和统计对抗样本在不同模型上的攻击成功率。这种强迁移性的对抗样本有利于更全面、更有效地评估不同ai多模态模型在面临对抗攻击时的鲁棒性和安全性能,从而验证模型的可靠性,为模型的实际应用部署提供了重要保障。

14、本专利技术步骤4中所述根据协同多模态交互算法生成图片以及文本的对抗样本，是利用图像和文本在多模态对齐空间中的交互信息，增强对抗样本的迁移攻击成功率；具体包括：利用嵌入引导生成对抗性文本集合、攻击文本过程中累积与图像相关的梯度信息、使用交互增强的手段来生成对抗性图像。其中：

15、所述利用嵌入引导生成对抗性文本集合，具体做法为：

16、首先，通过将图像信息作本文档来自技高网...

【技术保护点】

1.一种基于协同多模态交互的AI模型安全评估方法，其特征在于，包括：选定待攻击的源模型和目标模型，选定评估模型所需的待攻击图片以及文本；对选定的攻击图片和文本进行预处理，根据协同多模态交互算法生成图片以及文本的对抗样本，评估模型性能；在协同多模态交互过程中，融合嵌入引导和交互增强两种策略，嵌入引导利用多模态特征空间中的相似嵌入进行文本攻击，而交互增强则充分利用交互攻击中的梯度信息，从而生成更鲁棒的对抗样本，进行更有效评估AI多模态模型的安全性能；具体步骤如下：

2.根据权利要求1所述的AI模型安全评估方法，其特征在于，步骤4中所述根据协同多模态交互算法生成图片以及文本的对抗样本，是利用图像和文本在多模态对齐空间中的交互信息，增强对抗样本的迁移攻击成功率；具体包括：利用嵌入引导生成对抗性文本集合、攻击文本过程中累积与图像相关的梯度信息、使用交互增强的手段来生成对抗性图像；其中：

3.根据权利要求2所述的AI模型安全评估方法，其特征在于，所述对原始文本描述集进行扰动，具体描述如下：

4.根据权利要求3所述的AI模型安全评估方法，其特征在于，所述使用

...

【技术特征摘要】

1.一种基于协同多模态交互的ai模型安全评估方法，其特征在于，包括：选定待攻击的源模型和目标模型，选定评估模型所需的待攻击图片以及文本；对选定的攻击图片和文本进行预处理，根据协同多模态交互算法生成图片以及文本的对抗样本，评估模型性能；在协同多模态交互过程中，融合嵌入引导和交互增强两种策略，嵌入引导利用多模态特征空间中的相似嵌入进行文本攻击，而交互增强则充分利用交互攻击中的梯度信息，从而生成更鲁棒的对抗样本，进行更有效评估ai多模态模型的安全性能；具体步骤如下：

2.根据权利要求1所述的ai模型安全评估方法，其特征在于，步骤4中所述根据协同多模态交互算法生成图片以及文...

【专利技术属性】
技术研发人员：张文强，符纪元，陈兆宇，姜开勋，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人