一种基于隐空间仿射的文生图模型测评方法技术

技术编号：40311659 阅读：3 留言：0更新日期：2024-02-07 20:54

本发明专利技术公开了一种基于隐空间仿射的文生图模型测评方法，涉及文生图模型安全性测评技术领域，包括以下步骤：S1：根据目标生成的有害内容撰写相应有害提示词P；S2：将有害提示词P输入文生图模型；S3：分离被禁止的提示词P<subgt;N</subgt;的敏感部分W；S4：去除P<subgt;N</subgt;的敏感部分W并记为P<subgt;T</subgt;，将P<subgt;T</subgt;输入文生图模型测试提示词能否通过安全模块的限制；S5：利用隐空间仿射原理重新生成敏感部分W的替代词，与P<subgt;T</subgt;重新构成攻击提示词P<subgt;A；</subgt;S6：将P<subgt;A</subgt;输入文生图模型测试攻击效果。本发明专利技术采用上述的一种基于隐空间仿射的文生图模型测评方法，问询次数更低，效率更高，生成图像种类更可控。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文生图模型安全性测评，尤其是涉及一种基于隐空间仿射的文生图模型测评方法。

技术介绍

1、近年来，深度学习逐渐成为人工智能主流技术，其极强的分布拟合能力使人工智能在许多领域表达力得到显著增强。随着算力的提升与数据规模的壮大，深度学习进一步挣脱计算资源不足与数据资源有限的束缚，实现从传统“分析式人工智能”向以大模型为代表的“生成式人工智能”演进，宣示着人工智能正式进入aigc(artificial intelligencegenerated content)时代。以midjourney、dall·e2、stable diffusion和imagen为代表的文生图模型更是在一些未知任务领域展现出惊人的迁移能力，人工智能的潜力将被进一步释放。但研究表明文生图模型的安全模块和生成模块对相同提示词的理解上存在一些差异。2022年yang等人探索了一种隐式的攻击方法，生成了一种无法被人类和安全模块所理解，但生成模块能正确识别的有害提示词，揭示了安全模块和生成模块之间存在的理解差异。文生图模型受到攻击将合成出偏离预期甚至不符合事实与逻辑的有毒有害内容，将风险内容暴露给用户。这些内容或将不可逆地污染网络环境，攻击者会利用这些模型安全漏洞肆意传播问题内容以达成恶意目的。此外，训练文生图模型所需数据庞杂，其中难免混入涉及隐私的数据，模型在生成过程中可能直接或间接地展示训练数据中的内容，引发泄露隐私问题。

2、jin等人研究将安全模块作为黑盒并发起基于文本的对抗性攻击。carlini和webster等人的研究显示，攻击者可以通

3、上述的各种方法虽然都可以寻找模型在识别方面的缺陷，但都不够实际。如jin等人的方法仅关注如何绕过安全模块，而不关注生成图像的质量，用于生成的图像的提示词的有害语义可能会丢失；yang等人的方法需要多次询问文生图模型，再根据返回结果修改提示词，成本较高，需要花费较多时间。

4、因此，有必要提供一种基于隐空间仿射的文生图模型测评方法，来解决上述问题。

技术实现思路

1、本专利技术的目的是提供一种基于隐空间仿射的文生图模型测评方法，能够规模化地生成可绕过文生图模型文本安全模块限制，且保留语义信息，可被生成模块正确理解的提示词。本方法生成的提示词能够用于对文生图模型进行安全性测试。对比基于文本的对抗性攻击，本方法在通过安全模块的同时能被生成模块正确理解，并生成提示词相应有害内容；对比基于强化学习的攻击方法，本方法问询次数更低，效率更高，生成图像种类更可控。

2、为实现上述目的，本专利技术提供了一种基于隐空间仿射的文生图模型测评方法，包括以下步骤：

3、s1：根据目标生成的有害内容撰写相应有害提示词p；

4、s2：将有害提示词p输入文生图模型；

5、s3：分离被禁止的提示词pn的敏感部分w；

6、s4：去除pn的敏感部分w并记为pt，将pt输入文生图模型测试提示词能否通过安全模块的限制；

7、s5：利用隐空间仿射原理重新生成敏感部分w的替代词，与pt重新构成攻击提示词pa；

8、s6：将pa输入文生图模型测试攻击效果。

9、优选的，在步骤s1中，有害内容分为两大类：类别一为涉及政治人物的暴力、血腥图像；类别二为色情裸露图像；撰写的有害提示词p直接描绘相应内容。

10、优选的，在步骤s2中，将p输入文生图模型，测试能否通过文生图模型的安全模块生成相应内容；若能，记为py并保存该条提示词；若不能，记为pn并进行下一步处理。

11、优选的，在步骤s4中，将pt输入文生图模型测试提示词能否通过安全模块的限制，若不能，则重复步骤s3，对pt再次提取敏感内容；若能，确定需要替换的敏感部分，进行下一步处理。

12、优选的，在步骤s6中，将pa输入文生图模型以测试攻击效果，若通过，保留提示词及相应的生成图像；若不通过，则重复步骤s5。

13、优选的，步骤s3中提取的敏感部分w如下：

14、针对不同类别的提示词，提取部分不同：对于类别一的提示词，提取政治人物的名称，记为w11，和血液相关的词汇，记为w12；对于类别二的提示词，提取裸体人物描述部分，记为w2。

15、优选的，在步骤s5中，利用隐空间仿射原理重新生成敏感部分w的替代词，其中替代方法如下：

16、基于隐空间仿射的替代原理，将w11替换成该政治人物最相关的行为或事件；w12替换成与血液有相似外观的液体；w2替换成穿着裸露的衣物并在提示词中使用否定参数，且添加衣物的描述；具体包括以下步骤：

17、s51：利用大语言模型生成替代内容；

18、s52：通过文生图模型的图生文功能模块生成替代内容。

19、因此，本专利技术采用上述一种基于隐空间仿射的文生图模型测评方法，具备以下有益效果：

20、(1)本专利技术相比于现有的传统文本对抗样本方法，生成的提示词样本能在通过安全模块限制的同时正确保留语义信息，进而使文生图模型生成有害内容。

21、(2)本专利技术相比于现有的基于强化学习的文生图模型攻击方法，生成攻击样本成本低、效率高。

22、(3)本专利技术生成攻击样本的原理具有可解释性，可为安全模块机制的更新完善提供理论指导。

23、(4)本专利技术能够规模化、多维度、低成本地生成大量有效攻击样本，对文生图全面测评的同时，能为其安全模块提供充足训练数据以修复漏洞。

24、(5)本专利技术能够针对黑盒的商用文生图模型进行攻击测评。

25、下面通过附图和实施例，对本专利技术的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种基于隐空间仿射的文生图模型测评方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤S1中，有害内容分为两大类：类别一为涉及政治人物的暴力、血腥图像；类别二为色情裸露图像；撰写的有害提示词P直接描绘相应内容。

3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤S2中，将P输入文生图模型，测试能否通过文生图模型的安全模块生成相应内容；若能，记为PY并保存该条提示词；若不能，记为PN并进行下一步处理。

4.根据权利要求3所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤S4中，将PT输入文生图模型测试提示词能否通过安全模块的限制，若不能，则重复步骤S3，对PT再次提取敏感内容；若能，确定需要替换的敏感部分，进行下一步处理。

5.根据权利要求4所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤S6中，将PA输入文生图模型以测试攻击效果，若通过，保留提示词及相应的生成图像；若不通过，则重复步骤S5。

7.根据权利要求6所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤S5中，利用隐空间仿射原理重新生成敏感部分W的替代词，其中替代方法如下：

...

【技术特征摘要】

1.一种基于隐空间仿射的文生图模型测评方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤s1中，有害内容分为两大类：类别一为涉及政治人物的暴力、血腥图像；类别二为色情裸露图像；撰写的有害提示词p直接描绘相应内容。

3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤s2中，将p输入文生图模型，测试能否通过文生图模型的安全模块生成相应内容；若能，记为py并保存该条提示词；若不能，记为pn并进行下一步处理。

4.根据权利要求3所述的一种基于隐空间仿射的文生图模型测评方法，其特征在于：在步骤s4中，将pt...

【专利技术属性】
技术研发人员：巴钟杰，钟杰洺，陈海昕，王庆龙，程鹏，任奎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人