【技术实现步骤摘要】
本专利技术涉及文生图模型安全性测评,尤其是涉及一种基于隐空间仿射的文生图模型测评方法。
技术介绍
1、近年来,深度学习逐渐成为人工智能主流技术,其极强的分布拟合能力使人工智能在许多领域表达力得到显著增强。随着算力的提升与数据规模的壮大,深度学习进一步挣脱计算资源不足与数据资源有限的束缚,实现从传统“分析式人工智能”向以大模型为代表的“生成式人工智能”演进,宣示着人工智能正式进入aigc(artificial intelligencegenerated content)时代。以midjourney、dall·e2、stable diffusion和imagen为代表的文生图模型更是在一些未知任务领域展现出惊人的迁移能力,人工智能的潜力将被进一步释放。但研究表明文生图模型的安全模块和生成模块对相同提示词的理解上存在一些差异。2022年yang等人探索了一种隐式的攻击方法,生成了一种无法被人类和安全模块所理解,但生成模块能正确识别的有害提示词,揭示了安全模块和生成模块之间存在的理解差异。文生图模型受到攻击将合成出偏离预期甚至不符合事实与逻辑的
...【技术保护点】
1.一种基于隐空间仿射的文生图模型测评方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤S1中,有害内容分为两大类:类别一为涉及政治人物的暴力、血腥图像;类别二为色情裸露图像;撰写的有害提示词P直接描绘相应内容。
3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤S2中,将P输入文生图模型,测试能否通过文生图模型的安全模块生成相应内容;若能,记为PY并保存该条提示词;若不能,记为PN并进行下一步处理。
4.根据权利要求3所述的一种基于隐
...【技术特征摘要】
1.一种基于隐空间仿射的文生图模型测评方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s1中,有害内容分为两大类:类别一为涉及政治人物的暴力、血腥图像;类别二为色情裸露图像;撰写的有害提示词p直接描绘相应内容。
3.根据权利要求2所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s2中,将p输入文生图模型,测试能否通过文生图模型的安全模块生成相应内容;若能,记为py并保存该条提示词;若不能,记为pn并进行下一步处理。
4.根据权利要求3所述的一种基于隐空间仿射的文生图模型测评方法,其特征在于:在步骤s4中,将pt...
【专利技术属性】
技术研发人员:巴钟杰,钟杰洺,陈海昕,王庆龙,程鹏,任奎,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。