一种基于局部扰动的对抗样本防御算法制造技术

技术编号:27743545 阅读:14 留言:0更新日期:2021-03-19 13:37
本发明专利技术公开了一种基于局部扰动的对抗样本防御方法DAT‑LP。该算法属于对抗训练这一类型,用于提升模型鲁棒性抵御对抗文本的攻击,维护文本分类模型的可信处理。该算法基于对抗训练提出改进和训练技巧,用于进一步提升对抗训练的效果。主要概括为将之前的对抗训练方法从全局的扰动变为了局部的扰动,局部区域扰动的定义是屏蔽掉训练资料中一些分类倾向明显的词汇。DAT‑LP让模型能够从文本的整体语义学习到更多信息,避免一些词汇在模型训练中扮演了过重的角色从而对模型性能产生负面影响。

【技术实现步骤摘要】
一种基于局部扰动的对抗样本防御算法
本专利技术属于自然语言处理领域,涉及面对文本类型对抗样本攻击时的防御算法,该算法改进了对抗训练方法,从全局性扰动变为有针对性的局部扰动,利用对抗样本来确定局部区域,提升了模型处理对抗样本的能力。
技术介绍
人工智能(ArtificialIntelligence,AI)的概念提出以来,研究者们不断探索它的理论基础及其在交通、医疗、教育等方面的应用,而机器学习(MachineLearning,ML)与深度学习(DeepLearning,DL)则是如今最重要的AI技术。其中,DL中的深度神经网络(DeepNeuralNetwork,DNN)的研究近年来得到了迅猛的发展,在多个领域取得了优异的效果,例如自动驾驶、人脸识别、文本任务、智慧楼宇等等。但最新的研究指出,DNN随着自身结构复杂性的提升,表现为高度的非线性化。虽然模型的准确度日益提高,但自身的鲁棒性并没有得到很好的保障。恶意攻击者可以在原始输入样本的基础上添加少量的扰动生成对抗样本,从而诱导模型做出错误的判断,但人眼却无法辨别出原始样本与对抗样本之间的细微差异。这种现象引起了研究人员关于神经网络鲁棒性的担忧,暴露出神经网络在进一步被大规模应用到实际生活中存在着一定风险,尤其是一些安全性敏感的领域,例如在自动驾驶中,不法分子通过对交通指示牌做出人眼不可察觉的细微涂改,诱发无人车做出错误的驾驶行为从而引发交通事故;在垃圾短信识别等敏感类文本任务中,恶意信息的传播者构造对抗样本来规避原系统的检测。对抗样本的出现同时也给文本类任务造成了困扰,文本分类是自然语言处理中的常见任务,在工业生产、商业软件上都有着重要的用途,如垃圾短信邮件的识别、新闻分类、情感分析等等。深度神经网络作为一种新颖有效的方法,近年来涌现出了许多优秀的文本分类网络,在各项分类任务中取得了惊人的效果。但是也同样存在着无法有效辨别对抗样本的问题,如在垃圾短信和邮件的识别中,攻击者通过精心营造垃圾文本来规避识别系统的检查,将其散播到社会中造成不良影响。因此如何提升文本分类模型处理对抗样本的能力,是一个亟待解决的问题。本文基于这种现状针对中文文本分类任务,提出一种高效的攻击算法以及防御策略,其中攻击算法作为先验手段检测模型,通过防御策略辅助模型做出正确判断。在此之后,对抗样本的攻防技术被广泛用于计算机视觉的研究中,并且已有了许多成果。在对抗攻击算法方面,在对抗防御算法方面,对抗训练、防御性蒸馏和去噪网络等方法可以有效地处理对抗样本。与之相比,文本数据的对抗样本攻防(TextualAdversarialAttacksandDefense,TAAD)研究起步较晚、成果较少,Papernot首次指出攻击者可以在文本输入上添加噪声(Noise)制造对抗样本从而误导分类模型,这一发现迅速得到了自然语言处理(NaturalLanguageProcessing,NLP)相关研究者们的关注,该项研究的重点在于如何有效地生成对抗样本以及提出防御策略。由于文本与图像数据之间显著的差异,现有的攻防算法很难直接从图像领域迁移到文本领域。
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于局扰动和对抗训练的对抗样本防御算法,用于提升神经网络模型的泛化能力,和处理对抗样本的能力。本专利技术解决其技术问题所采用的基于基于局扰动的对抗样本防御算法,分为两步:(1)在模型的初始化训练阶段,利用攻击算法和滑动窗口进行冷启动,该算法命名为SW-CStart(SlidingWindowandColdStart),以此确定对抗扰动区域并进行对抗训练(2)在模型完成了初始化阶段之后,根据输入和对抗攻击算法来不断更新、扩大扰动区域,对模型进行迭代式的对抗训练。本专利技术解决其技术问题所采用的基于局扰动和对抗训练的对抗样本防御算法,和滑动窗口进行冷启动算法和局部对抗训练两个部分。A.模型初始化阶段由于没有对抗样本的概念,通过借助滑动窗口的方法完成模型最初的建立,该算法命名为SW-CStart。在模型训练阶段用于处理训练资料,在整个处理过程中不断调节窗口的大小来改变输入区域。B.对抗训练是处理对抗样本的最常用的有效办法,但是这种全局性地扰动并不具备针对性,文本分类任务中的原始文本数据中必然存在一些倾向性较强的词汇,因此通过将全局性扰动进行了削弱,变成了局部扰动。生成的对抗样本进行合理地应用对于防御有着指导性意义,通过比较对抗样本和原始样本之间的差异可以确定训练资料中组成部分较为敏感的部分,这一部分内容容易成为攻击者的目标,通过对这一部分内容进行精心构造从而欺骗神经网络模型达到攻击目的。因此对这一部分进行额外的扰动添加,削弱其在训练过程中的权重,达到提升模型泛化能力的目的。该算法提升了模型处理对抗样本时的能力,充分在对抗训练的过程中引入了对抗样本的作用,相比于直接将对抗样本作为训练资料扩充的做法,具有更强的泛化能力以及防御效果,使得神经网络模型的鲁棒性得到一定程度的提升。附图说明图1为本专利技术基于基于局部扰动的对抗样本防御算法结构图;图2为本专利技术涉及对抗训练流程图;图3为本专利技术涉及的文本序列对抗训练方法示意图;图4为本专利技术涉及的倾向性平滑对抗训练;图5为本专利技术涉及的滑动遮蔽窗口;图6为本专利技术涉及的滑动窗口冷启动算法SW-CStart;图7为本专利技术涉及的根据对抗样本确定局部扰动区域;具体实施方式下面结合附图对本专利技术作进一步的说明。在此需要说明的是,对于这些实施方式的说明仅用于帮助理解本专利技术,并不构成对本专利技术的限定。如图1算法主要分为两个重要部分:冷启动算法和局部对抗训练。局部扰动对抗训练方法分为以下几个阶段:1.对抗训练方法图2演示了对抗训练的一次基本流程,其中的实线部分是常规的模型训练常用步骤,对于任一模型f(x),训练的目的是为了通过样本x和标签y逐步确认模型中θ值的大小。在每一批次训练语料x投入到初始化模型之中,通过对比模型输出值与输入对应的真实标签y得出损失值,利用反向传播算法来更新模型中的参数θ,重复上述步骤直至将所有批次的训练资料利用完毕,使得模型的损失递减。而虚线部分则是在对抗训练中新增的部分,在一个批次训练的过程中完成反向传播更新模型参数之后,不再直接进入下一个批次,而是将更新之后的梯度信息提取出来,用于计算对抗扰动radv。因为需要添加的扰动值是基于本批次的模型参数计算得出,也只能将扰动用于本批次数据才有意义。将对抗扰动添加到输入样本x之上,将原输入调整为x+radv记为x′,然后用新的输入x′和y重新计算模型损失,进行第二次反向传播算法再次更新模型中的参数。将对抗训练的思想放到文本分类任务中,由于文本序列的离散性,依然采取以词嵌入层为模型界限,将模型分为上下游两部分,对于下游模型统一用h(e)表示,其中e为原始输入序列对应的词向量,θ是文本分类模型内部的固定参数。为了避免文本数据的离散特点,使得对抗训练在文本序列上进行成为可能,因此如图3所示在词本文档来自技高网
...

【技术保护点】
1.一种基于局部扰动的对抗样本防御算法。其特征在于:/n具备识别对抗特点的文本输入(1),在建立内部神经网络模型的阶段,使用了对抗训练提升泛化能力(2),以此建立垃圾短信识别系统(3)在外部系统或者用户提交了服务请求后(4),系统能够准确地判别输入文本内容的性质(5),为现有的横向项目短信平台提供净化环境的功能/n

【技术特征摘要】
1.一种基于局部扰动的对抗样本防御算法。其特征在于:
具备识别对抗特点的文本输入(1),在建立内部神经网络模型的阶段,使用了对抗训练提升泛化能力(2),以此建立垃圾短信识别系统(3)在外部系统或者用户提交了服务请求后(4),系统能够准确地判别输入文本内容的性质(5),为现有的横向项目短信平台提供净化环境的功能


2.根据权利要求1所述的一种基于局部扰动的对抗样本防御算法统,其特征在于:在训练过程中,不仅仅用原始输入文本作为训练资料,在此基础上引入了对抗训练的思想。将扰动添加到了原输入上。


3.根据权...

【专利技术属性】
技术研发人员:陈彦如石静牟志王浩魏亮雄邹可欣张媛媛梁刚许春张磊陈良银
申请(专利权)人:成都易书桥科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1