当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于隐空间仿射的文生图模型测评方法技术

技术编号:40311659 阅读:24 留言:0更新日期:2024-02-07 20:54
本发明专利技术公开了一种基于隐空间仿射的文生图模型测评方法,涉及文生图模型安全性测评技术领域,包括以下步骤:S1:根据目标生成的有害内容撰写相应有害提示词P;S2:将有害提示词P输入文生图模型;S3:分离被禁止的提示词P<subgt;N</subgt;的敏感部分W;S4:去除P<subgt;N</subgt;的敏感部分W并记为P<subgt;T</subgt;,将P<subgt;T</subgt;输入文生图模型测试提示词能否通过安全模块的限制;S5:利用隐空间仿射原理重新生成敏感部分W的替代词,与P<subgt;T</subgt;重新构成攻击提示词P<subgt;A;</subgt;S6:将P<subgt;A</subgt;输入文生图模型测试攻击效果。本发明专利技术采用上述的一种基于隐空间仿射的文生图模型测评方法,问询次数更低,效率更高,生成图像种类更可控。

【技术实现步骤摘要】

本专利技术涉及文生图模型安全性测评,尤其是涉及一种基于隐空间仿射的文生图模型测评方法


技术介绍

1、近年来,深度学习逐渐成为人工智能主流技术,其极强的分布拟合能力使人工智能在许多领域表达力得到显著增强。随着算力的提升与数据规模的壮大,深度学习进一步挣脱计算资源不足与数据资源有限的束缚,实现从传统“分析式人工智能”向以大模型为代表的“生成式人工智能”演进,宣示着人工智能正式进入aigc(artificial intelligencegenerated content)时代。以midjourney、dall·e2、stable diffusion和imagen为代表的文生图模型更是在一些未知任务领域展现出惊人的迁移能力,人工智能的潜力将被进一步释放。但研究表明文生图模型的安全模块和生成模块对相同提示词的理解上存在一些差异。2022年yang等人探索了一种隐式的攻击方法,生成了一种无法被人类和安全模块所理解,但生成模块能正确识别的有害提示词,揭示了安全模块和生成模块之间存在的理解差异。文生图模型受到攻击将合成出偏离预期甚至不符合事实与逻辑的有毒有害内容,将风险本文档来自技高网...

【技术保护点】

1.一种基于隐空间仿射的文生图模型测评方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤S1中,有害内容分为两大类:类别一为涉及政治人物的暴力、血腥图像;类别二为色情裸露图像;撰写的有害提示词P直接描绘相应内容。

3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤S2中,将P输入文生图模型,测试能否通过文生图模型的安全模块生成相应内容;若能,记为PY并保存该条提示词;若不能,记为PN并进行下一步处理。

4.根据权利要求3所述的一种基于隐空间仿射的文生图模型...

【技术特征摘要】

1.一种基于隐空间仿射的文生图模型测评方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s1中,有害内容分为两大类:类别一为涉及政治人物的暴力、血腥图像;类别二为色情裸露图像;撰写的有害提示词p直接描绘相应内容。

3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s2中,将p输入文生图模型,测试能否通过文生图模型的安全模块生成相应内容;若能,记为py并保存该条提示词;若不能,记为pn并进行下一步处理。

4.根据权利要求3所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s4中,将pt...

【专利技术属性】
技术研发人员:巴钟杰钟杰洺陈海昕王庆龙程鹏任奎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1