针对自然语言处理模型在有限次数条件下的对抗测试方法技术

技术编号:31911831 阅读:13 留言:0更新日期:2022-01-15 12:52
本发明专利技术公开了针对自然语言处理模型在有限次数条件下的对抗测试方法,该方法主要包括三个步骤:本地对抗测试步骤,主要是针对一个本地白盒模型进行对抗测试,该步骤可以获得足够数量的本地对抗测试样本和对应的替换词位置信息;目标对抗测试步骤,主要是针对目标黑盒模型进行对抗测试,该步骤则将本地对抗测试得到的本地对抗测试样本作为针对目标模型对抗测试的起点并利用了其替换词位置信息;调优本地模型步骤,利用目标对抗测试得到的带标签的输出样本实时调优本地模型,使得本地模型更接近目标模型,以此来提高本地对抗测试样本的迁移性。本发明专利技术降低了用于自然语言处理模型安全性和鲁棒性验证的有效对抗测试样本的成本。全性和鲁棒性验证的有效对抗测试样本的成本。全性和鲁棒性验证的有效对抗测试样本的成本。

【技术实现步骤摘要】
针对自然语言处理模型在有限次数条件下的对抗测试方法


[0001]本专利技术属于人工智能安全
,特别是一种针对自然语言处理模型在有限次数条件下的对抗测试方法。

技术介绍

[0002]深度神经网络在计算机视觉、自然语言处理和语音识别等领域有着广泛的应用。尽管深度神经网络性能优越,但最近的研究证明深度学习模型在面对对抗性攻击时暴露了极大的安全风险,另一方面对抗攻击也能提高深度学习模型的鲁棒性和可解释性。这就使得模拟对抗攻击的对抗测试的研究显得尤为重要。但是,在黑盒测试中,如针对深度学习模型应对网络攻击能力,系统漏洞探查方面,由于用于黑盒测试的攻击者无法访问目标模型的内部结构和具体参数,只能通过操纵目标模型的输入和输出的方式来指导对抗测试,为了找到所需数量的对抗测试样本,通常需要大量的模型查询,而且每个查询都需要时间来执行,往往需要付出高昂的代价。
[0003]随着自然语言处理模型在各行业中的广泛应用。因此,针对自然语言处理模型,高效能、低成本地获得有限查询次数条件下的对抗测试样本,对于验证、优化和提升自然语言处理模型的安全性、鲁棒性具有极为重要的意义。

技术实现思路

[0004]针对现有技术的不足,本专利技术公开了一种在黑盒测试环境中,针对自然语言处理模型在有限次数条件下的对抗测试方法。本专利技术的主要思想是充分利用本地模型产生的对抗测试样本的信息,将针对目标模型对抗测试的部分过程转移到本地模型上提前完成,进而节省对目标模型的对抗测试成本和提高黑盒测试效率。
[0005]本专利技术公开的针对自然语言处理模型在有限次数条件下的对抗测试方法,包括三个步骤:
[0006]本地对抗测试步骤:针对本地模型进行本地对抗测试,并生成本地对抗测试样本;
[0007]目标对抗测试步骤:以本地对抗测试步骤中得到的本地对抗测试样本为起点,在所述本地对抗测试样本的基础上,继续针对目标模型进行目标对抗测试,得到最终的对抗测试样本;
[0008]调优本地模型步骤:将目标对抗测试步骤得到的最终的对抗测试样本添加到所述本地模型的训练集中,重新训练所述本地模型,调优本地模型。
[0009]其中,本地对抗测试步骤中,主要是针对一个本地白盒模型进行对抗测试,该步骤可以获得足够数量的本地对抗测试样本和对应的替换词位置信息。目标对抗测试步骤中,主要是针对目标黑盒模型进行对抗测试,该步骤则将本地对抗测试得到的本地对抗测试样本作为针对目标模型对抗测试的起点并利用了其替换词位置信息。本地模型调优步骤中利用目标对抗测试得到的带标签的输出样本实时调优本地模型,使得本地模型更接近目标模型,以此来提高本地对抗测试样本的迁移性。因而可实现以更少的对目标模型的有限查询
次数获得用于黑盒测试的有效对抗测试样本。
[0010]作为更优的技术方案,在上述技术方案的基础上,在本地对抗测试步骤中,针对本地模型生成对抗测试样本的本地对抗测试包括:
[0011]给定数据集中一个句子包含n个单词,即x
i
=[ω0,ω1,

,ω
m


,ω
n
],其中,n为不小于1的正整数,x
i
表示编号为i的句子,ω
k
表示句子中位置为k的单词,0≤k≤n,且k为整数;
[0012]每个单词在选定的搜索空间中,如:同义词典、义原、词嵌入空间等,通常会存在数量不等的可替换词,如:ω
m
存在多个可替换词时,其可替换词空间可表示为通过查询本地模型找到每个存在可替换词的单词在可替换词空间中目标标签预测分数最高的那个候选替换词,即标签预测分数最高的那个候选替换词,即表示句子x
i
中第m个位置单词的最优替换词,W
max
表示每个存在可替换词的单词用最优替换词替换后的组合形式;然后针对本地模型通过组合优化方法筛选出合适的最优替换词组合,使用该组合取代原始句子相应位置的单词,产生一个候选对抗测试样本x
i

。重复以上步骤,得到所需数量的候选对抗测试样本。同时,记录每个候选对抗测试样本的替换词位置信息,如:p
i
=(j,

,k)为候选对抗测试样本x
i

取代原始样本x
i
的单词的位置序号集合。
[0013]作为更优的技术方案,在上述技术方案的基础上,目标对抗测试步骤中的目标对抗测试包括:
[0014]在本地对抗测试步骤中得到的本地对抗测试样本如果可以直接作用于目标模型上,使得目标模型预测出错,即对抗测试成功,则返回一个成功的对抗测试样本;如果目标模型预测成功,即对抗测试失败,则以该本地对抗测试样本为起点,通过组合优化的方法继续寻优,直到找到成功的对抗测试样本。
[0015]为便于理解本步骤,假设x
i

为对抗测试失败的本地对抗测试样本,利用本地对抗测试步骤中得到的替换词位置信息p
i
=(j,

,k),即寻找x
i

中第j个到第k个位置处单词的可替换词空间;通过查询目标模型,得到目标模型预测分数最高的候选替换词,如直接将x
i

中第j个到第k个位置处单词替换为得到x
i

,如果对抗测试成功则返回一个成功的对抗测试样本;如果对抗测试失败,则在x
i

的其余位置继续选择替换词进行替换。
[0016]作为更优的技术方案,在上述技术方案的基础上,本地模型调优步骤中的调优本地模型包括:
[0017]提取在本地对抗测试步骤中得到的能直接使目标模型预测出错的候选对抗测试样本x
a

,以及在目标对抗测试步骤中得到的对抗测试样本x
i


[0018]提取样本x
a

和x
i

在搜索过程中得到的目标模型的预测分数;
[0019]将这些带有目标模型预测分数标签的样本x
a

和x
i

添加到所述本地模型的训练数据集中重新训练本地模型。
[0020]作为更优的技术方案,在上述技术方案的基础上,所述本地模型可为CNN或者LSTM。
[0021]作为更优的技术方案,在上述技术方案的基础上,所述目标模型的实现任务和所
述本地模型相同。
[0022]作为更优的技术方案,在上述技术方案的基础上,所述目标模型为BERT模型。
[0023]本专利技术与现有技术相比,其显著优点为:
[0024](1)可用性高,对抗测试在黑盒测试条件下进行,黑盒对抗测试只需要攻击者知道模型输出的置信度信息即可发起对抗测试,不需要了解模型的具体结构和参数等,更接近现实场景。
[0025](2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对自然语言处理模型在有限次数条件下的对抗测试方法,其特征在于包括:本地对抗测试步骤:针对本地模型进行本地对抗测试,并生成本地对抗测试样本;目标对抗测试步骤:以本地对抗测试步骤中得到的本地对抗测试样本为起点,在所述本地对抗测试样本的基础上,继续针对目标模型进行目标对抗测试,得到最终的对抗测试样本;本地模型调优步骤:将目标对抗测试步骤得到的最终的对抗测试样本添加到所述本地模型的训练集中,重新训练所述本地模型,调优本地模型。2.根据权利要求1所述的方法,其特征在于所述本地对抗测试步骤中的本地对抗测试包括:给定数据集中一个包含n个单词的句子,表示为:x
i
=[ω0,ω1,

,ω
m


,ω
n
],其中,x
i
表示编号为i的句子,ω
k
表示句子x
i
第k个位置的单词,0≤k≤n;每个单词在选定的搜索空间中如果存在可替换词时,通过查询本地模型找到可替换词空间中目标标签预测分数最高的那个候选替换词;针对本地模型通过组合优化方法筛选出合适的最优替换词组合,使用该组合取代原始句子相应位置的单词,产生一个候选对抗测试样本x
i

,重复以上步骤,得到所需数量的候选对抗测试样本,同时记录每个候选对抗测试样本的替换词位置信息。3.根据权利要求...

【专利技术属性】
技术研发人员:杨俊安张雨邵堃刘辉呼鹏江娄睿
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1