有图像引导的故事结尾生成模型的迭代式对抗攻击方法技术

技术编号:39599193 阅读:7 留言:0更新日期:2023-12-03 19:59
本发明专利技术公开了一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,本发明专利技术以有效地对文本

【技术实现步骤摘要】
有图像引导的故事结尾生成模型的迭代式对抗攻击方法


[0001]本专利技术涉及图像模态攻击
,尤其涉及一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,用于理解多模态文本生成模型的对抗鲁棒性,研究其可靠性和安全性


技术介绍

[0002]现有的对抗攻击方法主要关注单模态的数据,如图像模态的攻击方法
FGSM

PGD
等,及文本模态的攻击方法
BERT

Attack,TextBugger
等,这类单模态攻击方法忽视了多模态数据中的信息互补性
(
如图1所示
)
不能最大程度地攻击多模态模型

最新的多模态攻击方法
Co

attack
则简单地使用一个逐步攻击的机制,即首先扰动离散的输入
(
文本
)
,然后在输出的对抗文本的基础上扰动连续输入
(
图像
)。
这类方法很难找到多模态信息中最容易受到攻击的多模态信息对,而且
Co

attack
主要面向多模态匹配和多模态分类任务


技术实现思路

[0003]本专利技术目的就是为了弥补已有技术的缺陷,提供一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,本专利技术可以通过迭代式寻找最容易受到攻击的多模态信息对来攻击图像引导的故事结尾生成模型
(IgSEG)
;本专利技术在两个真实数据集上,对三个的图像引导的故事结尾生成模型进行了攻击测试,结果表明我们的方法表现优于现有的基线方法
(Co

attack,kNN,CharSwap)。
[0004]本专利技术是通过以下技术方案实现的:
[0005]一种面向图像引导的故事结尾生成模型的迭代式对抗攻击方法,具体包括如下步骤:
[0006](1)
输入原始文本和原始图像,从故事上下文中选择出易受攻击的词,即目标词;为每一个目标词生成多个替代词,逐个用替代词取代目标词,生成潜在的对抗文本;
[0007](2)
将生成的潜在的对抗文本作为监督信息和原始图像输入到图像攻击算法中寻找最容易影响目标模型输出的图文信息对;如果所述易受攻击的词所对应的所有的替代词都不能达到攻击目标,则选择使得目标模型损失值最大的替代词取代该目标词,然后继续对下一个目标词用相应的替代词进行取代,迭代式地寻找最易受到攻击的图文信息对,直到攻击成功,生成多模态对抗样本;
[0008](3)
攻击目标:将生成的多模态对抗样本输入到目标模型中生成的故事结尾的质量相对于原始文本和原始图像作为输入生成的故事结尾的质量低于预设的阈值

[0009]步骤
(1)
所述的输入原始文本和原始图像,从故事上下文中选择出易受攻击的词,即目标词;为每一个目标词生成多个替代词,逐个用替代词取代目标词,生成潜在的对抗文本,具体如下:
[0010]用
x
t

x
i
表示原始的输入文本和图像,其中
x
t

[w0,
...w
h

...],
w
h
表示文本
x
t
中的第
h
个词,
F((x
t

x
i
))
表示图像引导的故事结尾生成模型的正常输出结果,原始文本
xt
中易
受攻击的词
w
h
的重要性分值
Q
wh
为:
[0011]Q
wh

F((x
t

x
i
))

F((x
t@h

x_i))
[0012]上式中
x
t@h

[w0,
...

w
h
‑1,
MASK

w
h+1
...]是用
[MASK]取代
w
h
后的故事上下文;在原始上下文
x
t
中所有词的重要性分值
Q
x
定义如下:
[0013]Q
x

[Q
w1

...

Q
wh

...

Q
wn
][0014]对所有词的重要性分值集合
Q
x
以降序方式进行排序,选出分值最高的前
K
个词放入重要词集合
L

[0015]为了给重要词集合
L
中的每一个词生成可能的扰动,以及确保生成的对抗性文本无论是语义还是人类视觉上都与原始的文本相近,使用字符级别的扰动生成方式
(S
c
)
和词级别的扰动生成方式
(S
w
)
作为文本扰动机制,因此,对于第
h
个重要词
w
h
的取代词集合
C
wh
为:
[0016][0017]对于文本对抗攻击,为易受攻击的词
w
h
生成取代词集合
C
wh
,对于取代词集合
C
wh
中的每一个取代词
s
j
,用取代词
s
j
取代原文
x
t
中的词
w
h
,生成潜在的对抗文本
x

t

[0018]步骤
(2)
的具体方法如下:
[0019]对于图像攻击,将潜在的对抗文本作为监督信息,去攻击与文本扰动互补的图像信息,输出潜在的对抗性图像:
[0020][0021]上式中
a
是迭代的数量,表示一系列允许的扰动集合,
x

i
表示生成的对抗图像,

表示图像扰动时的步长,
sign
表示数学中的符号函数表示对图像
x
i
求偏导,
L
adv
表示对抗损失函数,
θ
表示目标模型的参数,
c
h,j
表示用
C
wh
中第
j
个取代词替代目标词后的文本,
y
是原始文本和图像对应的真实故事结尾;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,其特征在于:具体包括如下步骤:
(1)
输入原始文本和原始图像,从故事上下文中选择出易受攻击的词,即目标词;为每一个目标词生成多个替代词,逐个用替代词取代目标词,生成潜在的对抗文本;
(2)
将生成的潜在的对抗文本作为监督信息和原始图像输入到图像攻击算法中寻找最容易影响目标模型输出的图文信息对;如果所述易受攻击的词所对应的所有的替代词都不能达到攻击目标,则选择使得目标模型损失值最大的替代词取代该目标词,然后继续对下一个目标词用相应的替代词进行取代,迭代式地寻找最易受到攻击的图文信息对,直到攻击成功,生成多模态对抗样本;
(3)
攻击目标:将生成的多模态对抗样本输入到目标模型中生成的故事结尾的质量相对于原始文本和原始图像作为输入生成的故事结尾的质量低于预设的阈值
。2.
根据权利要求1所述的一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,其特征在于:步骤
(1)
所述的输入原始文本和原始图像,从故事上下文中选择出易受攻击的词,即目标词;为每一个目标词生成多个替代词,逐个用替代词取代目标词,生成潜在的对抗文本,具体如下:用
x
t
,x
i
表示原始的输入文本和原始图像,其中
x
t

[w0,...w
h
,

]

w
h
表示文本
x
t
中的第
h
个词,
F((x
t
,x
i
))
表示图像引导的故事结尾生成模型的正常输出结果,原始文本
x
t
中易受攻击的词
w
h
的重要性分值
Q
wh
为:
Q
wh

F((x
t
,x
i
))

F((x
t@h
,x_i))
上式中
x
t@h

[w0,

,w
h
‑1,MASK,w
h+1

]
是用
[MASK]
取代
w
h
后的故事上下文;在原始上下文
x
t
中所有词的重要性分值
Q
x
定义如下:
Q
x

[Q
w1
,

,Q
wh
,

,Q
wn
]
对所有词的重要性分值集合
Q
x
以降序方式进行排序,选出分值最高的前
K
个词放入重要词集合
L
;为了给重要词集合
L
中的每一个词生成可能的扰动,以及确保生成的对抗性文本无论是语义还是人类视觉上都与原始的文本...

【专利技术属性】
技术研发人员:胡文波洪日昌王有泽
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1