【技术实现步骤摘要】
对抗文本的修复方法及装置
[0001]本申请涉及人工智能领域,并且更具体地,涉及对抗样本的识别方法及装置。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。虽然,人工智能在许多领域都取得了巨大的成功,但是,经研究发现,基于人工智能技术的分类模型对于对抗样本具有极高的脆弱性,很多情况下,训练得到的具有不同结构的分类模型都会对相同的对抗样本实现误分类。
[0003]目前已知多种技术可以用于识别输入样本是对抗样本还是非对抗样本,但是,由于识别方法的准确率的限制,识别出的对抗样本只是疑似对抗样本,因此,在识别出这些疑似对抗样本后,完全拒绝这些样本的处 ...
【技术保护点】
【技术特征摘要】
1.一种对抗文本的修复方法,其特征在于,包括:对待修复的对抗文本进行加扰生成一个或多个扰动文本,所述一个或多个扰动文本中每个扰动文本的语义与所述对抗文本的语义相似或相同;将所述一个或多个扰动文本输入第一分类模型,得到所述一个或多个扰动文本对应的第一分类结果;基于所述一个或多个扰动文本对应的第一分类结果,确定所述对抗文本的预测分类结果,所述预测分类结果与所述对抗文本的预测结果不同。2.如权利要求1所述的方法,其特征在于,所述方法还包括:基于所述预测分类结果确定所述对抗文本的修复文本,所述预测分类结果为所述第一分类模型输出的所述修复文本的分类结果。3.如权利要求1或2所述的方法,其特征在于,在所述基于所述一个或多个扰动文本对应的第一分类结果,确定所述对抗文本的预测分类结果之前,所述方法还包括:将所述一个或多个扰动文本输入第二分类模型,得到所述一个或多个扰动文本中每个扰动文本对应的第二分类结果,所述第二分类模型与所述第一分类模型为功能相同的不同模型;所述基于所述一个或多个扰动文本对应的第一分类结果,确定所述对抗文本的预测分类结果,包括:若所述第一分类结果与所述第二分类结果相同,基于所述一个或多个扰动文本对应的第一分类结果,确定所述对抗文本的预测分类结果。4.如权利要求1或2所述的方法,其特征在于,所述一个或多个扰动文本中至少部分扰动文本为非对抗文本。5.如权利要求1-4中任一项所述的方法,其特征在于,所述多个扰动文本对应的第一分类结果包括多个标签,所述预测分类结果包括预测标签,所述基于所述一个或多个扰动文本对应的第一分类结果,确定所述对抗文本的预测分类结果,包括:针对所述多个标签中的第i个标签c
i
生成第一假设以及第二假设,所述第一假设为所述对抗文本对应的所述预测标签为c
i
,所述第二假设为所述对抗文本对应的所述预测标签不为c
i
,其中,i=1,
……
,n,n表示所述多个标签的总数;对所述第一假设以及所述第二假设进行假设检验,得到检验结果,所述检测结果用于指示所述对抗文本的预测标签是否为c
i
;基于所述检验结果确定所述对抗文本的所述预测标签。6.如权利要求1-5中任一项所述的方法,其特征在于,所述对待修复的对抗文本进行加扰生成一个或多个扰动文本,包括:基于随机扰动处理、文本错误处理以及语义等价对抗SEAs中的至少一种,对所述待修复的对抗文本进行加扰生成所述一个或多个扰动文本。7.一种对抗文本的修复装置,其特征在于,包括:处理单元,用于对待修复...
【专利技术属性】
技术研发人员:戴挺,时杰,董国良,孙军,
申请(专利权)人:权利要求书二页说明书二一页附图六页,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。