当前位置: 首页 > 专利查询>广州大学专利>正文

一种用于神经机器翻译的字符级对抗样本生成方法及装置制造方法及图纸

技术编号:25043482 阅读:21 留言:0更新日期:2020-07-29 05:33
本发明专利技术公开了一种用于神经机器翻译的字符级对抗样本生成方法及装置,所述方法包括:从需要翻译的文本中随机选定源语言句子;根据预设的攻击方式组合随机修改源语言句子的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。本发明专利技术通过交换、中间随机、完全随机、键盘错误四种攻击方式修改源语言句子,在最小程度上对语句进行更改,生成在最大限度上不引发人类察觉的对抗样本,在不需要知晓被攻击模型的内部结构和参数的情况下,仅需要调用神经网络得到翻译译文,使得神经机器翻译模型的翻译质量大大降低,提高对抗样本的成功率,并且极大降低了算法的时间和复杂度,提高对抗样本的生成效率。

【技术实现步骤摘要】
一种用于神经机器翻译的字符级对抗样本生成方法及装置
本专利技术涉及计算机科学的自然语言处理
,尤其是涉及一种用于神经机器翻译的字符级对抗样本生成方法及装置。
技术介绍
自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学的重要研究领域,机器翻译是NLP领域的一个重要分支,旨在利用计算机将一种自然语言(源语言)转化为另一种自然语言(目标语言)。大部分机器翻译系统是基于以下三种方法:基于规则、基于统计和基于神经网络,因为神经机器翻译(NeuralMachineTranlation,简称NMT)系统在应用中能得到最好的翻译质量,故大多数翻译网站采取的方法为NMT系统。但随着机器学习的浪潮不断袭来,越来越多的研究表明神经网络存在安全问题:通过对输入添加细微扰动生成的对抗样本,就能够使得原始模型出错。一般而言,通过一定方法生成一个和原始输入差别不大(人类无法察觉)的攻击性输入,该攻击性输入被称为对抗样本。学术界最开始发现对抗样本广泛存在于图像领域,例如生成对抗样本可以使得人脸识别系统、车牌识别模型和图像分类器产生错误输出,随着研究的深入,学者发现对抗样本同时广泛存在于文本领域。目前存在一些实例表明神经机器翻译系统中也存在对抗样本。但是,在对现有技术的研究与实践的过程中,本专利技术的专利技术人发现,目前生成对抗样本的方法都是白盒攻击方法,由于白盒攻击方法需要了解模型内部参数,而在实际的过程中想要知道被攻击模型的具体参数是非常难的,甚至不可能,并且白盒攻击算法的时间和空间复杂度很高,在使用上限制较大。目前现有技术提出了一种字符级的方法,即通过损失函数的变化寻找特定的字符编辑操作(替换、插入、删除),进而生成白盒对抗样本;但是该方法是基于字符级的白盒攻击方法,不仅需要知道被攻击模型的内部参数,还需要大量的运算资源来计算梯度,而且该方法只要应用于文本分类领域,并不能很好适用于机器翻译领域。现有技术还提出了一种基于单词级的白盒攻击方法,虽然可以较快的生成对抗样本,但是单词级别的更改,很容易造成语义不停从而被人察觉,无法达成对抗样本的基本特征(即人无法察觉)。因此,亟需一种用于神经机器翻译的字符级对抗样本生成方法。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种用于神经机器翻译的字符级对抗样本生成方法及装置,有效生成针对神经机器翻译的字符集的对抗样本,使得神经机器翻译模型的翻译质量大大降低。为解决上述问题,本专利技术的一个实施例提供了一种用于神经机器翻译的字符级对抗样本生成方法,至少包括如下步骤:从需要翻译的文本中随机选定源语言句子;根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。进一步地,所述用于神经机器翻译的字符级对抗样本生成方法,还包括:分别将所述对抗样本输入至神经机器翻译模型,得到对应的输出结果进行比对,以评估神经机器翻译模型翻译所述对抗样本的翻译质量。进一步地,所述交换攻击,具体为:随机选择所述源语言句子中的单词,将该单词中除首字母和尾字母之外的字母进行对称交换顺序,将完成交换攻击后的新单词替换原单词;其中,该单词的长度不小于4。进一步地,所述中间随机攻击,具体为:随机选择所述源语言句子中的单词,将该单词中的首字母和尾字母之外的字母进行重新的随机排序,将完成中间随机攻击后的新单词替换原单词;其中,该单词的长度不小于4。进一步地,所述完全随机攻击,具体为:随机选择所述源语言句子中的单词,将该单词中的所有字母的顺序随机打乱,将完成完全随机攻击后的新单词替换原单词。进一步地,所述键盘错误攻击,具体为:随机选择所述源语言句子中的单词,随机选取该单词中的任意字母;对每一个随机选取的字母均随机选择其对应的键盘临近字符中的一个字符进行替换,将完成键盘错误攻击后的新单词替换原单词。进一步地,所述预设的攻击方式组合,包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击中的任意一种,以及四种攻击方式之间的全部随机组合。本专利技术的一个实施例提供了一种用于神经机器翻译的字符级对抗样本生成装置,包括:攻击目标模块,用于从需要翻译的文本中选定源语言句子;对抗样本生成模块,用于根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击;对抗样本翻译模块,用于分别将所述对抗样本输入至神经机器翻译模型,得到对应的输出结果进行比对,以评估神经机器翻译模型翻译所述对抗样本的翻译质量。本专利技术的一个实施例还提供了一种用于神经机器翻译的字符级对抗样本生成的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的用于神经机器翻译的字符级对抗样本生成方法。本专利技术的一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的用于神经机器翻译的字符级对抗样本生成方法。实施本专利技术实施例,具有如下有益效果:本专利技术实施例提供的一种用于神经机器翻译的字符级对抗样本生成方法及装置,所述方法包括:从需要翻译的文本中随机选定源语言句子;根据预设的攻击方式组合随机修改源语言句子的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。本专利技术通过交换、中间随机、完全随机、键盘错误四种攻击方式修改源语言句子,在最小程度上对语句进行更改,生成在最大限度上不引发人类察觉的对抗样本,在不需要知晓被攻击模型的内部结构和参数的情况下,仅需要调用神经网络得到翻译译文,使得神经机器翻译模型的翻译质量大大降低,提高对抗样本的成功率,并且极大降低了算法的时间和复杂度,提高对抗样本的生成效率。附图说明图1为本专利技术第一实施例提供的一种用于神经机器翻译的字符级对抗样本生成方法的流程示意图;图2为本专利技术第一实施例提供的另一种用于神经机器翻译的字符级对抗样本生成方法的流程示意图;图3为本专利技术第二实施例提供的一种用于神经机器翻译的字符级对抗样本生成装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个本文档来自技高网
...

【技术保护点】
1.一种用于神经机器翻译的字符级对抗样本生成方法,其特征在于,至少包括如下步骤:/n从需要翻译的文本中随机选定源语言句子;/n根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;/n其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。/n

【技术特征摘要】
1.一种用于神经机器翻译的字符级对抗样本生成方法,其特征在于,至少包括如下步骤:
从需要翻译的文本中随机选定源语言句子;
根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;
其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。


2.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,还包括:
分别将所述对抗样本输入至神经机器翻译模型,得到对应的输出结果进行比对,以评估神经机器翻译模型翻译所述对抗样本的翻译质量。


3.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述交换攻击,具体为:
随机选择所述源语言句子中的单词,将该单词中除首字母和尾字母之外的字母进行对称交换顺序,将完成交换攻击后的新单词替换原单词;
其中,该单词的长度不小于4。


4.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述中间随机攻击,具体为:
随机选择所述源语言句子中的单词,将该单词中的首字母和尾字母之外的字母进行重新的随机排序,将完成中间随机攻击后的新单词替换原单词;
其中,该单词的长度不小于4。


5.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述完全随机攻击,具体为:
随机选择所述源语言句子中的单词,将该单词中的所有字母的顺序随机打乱,将完成完全随机攻击后的新单词替换原单词。


6.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在...

【专利技术属性】
技术研发人员:顾钊铨谢禹舜伍丹妮朱斌仇晶韩伟红方滨兴
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1