翻译、对抗样本生成、模型鲁棒性增强方法及相关装置制造方法及图纸

技术编号:37364854 阅读:21 留言:0更新日期:2023-04-27 07:12
本申请公开了翻译、对抗样本生成、模型鲁棒性增强方法及相关装置,利用预训练的鲁棒性增强的机器翻译模型对待翻译文本进行翻译,得到文本翻译结果,鲁棒性增强的机器翻译模型以标注参考翻译文本标签的训练对抗样本作为训练数据进行对抗性训练,训练对抗样本通过对训练源输入文本中的待替换词用候选的同义词替换得到,候选的同义词为根据训练源输入文本添加待替换词的候选词集中的词对应的正则化后的扰动信息前后文本的信息散度,以及候选词集中的词替换待替换词前后文本的语义相似度,从候选词集中筛选出的词。本申请在尽可能小的扰动下得到训练对抗样本,然后训练模型,提高了模型的翻译准确度,模型训练阶段无需额外构建网络,训练效率更高。训练效率更高。训练效率更高。

【技术实现步骤摘要】
翻译、对抗样本生成、模型鲁棒性增强方法及相关装置


[0001]本申请涉及翻译
,更具体的说,是涉及翻译、对抗样本生成、模型鲁棒性增强方法及相关装置。

技术介绍

[0002]神经网络机器翻译(Neural Machine Tranlation,NMT)是机器翻译任务的一个重要研究方向,神经网络机器翻译模型的安全性是目前需要重点考虑的问题,研究表明对模型的原输入施加轻微扰动以生成对抗样本,能够使模型出错,据此对模型进行对抗训练可以提高模型的鲁棒性。
[0003]在现有工作中,一种用于机器翻译模型的对抗性训练过程为,将原始样本输入生成对抗网络,以在该网络中将原始样本映射到分布空间中,并在其中查找搜索出与输入服从相同分布的文本嵌入式表示,得到对抗样本,然后基于对抗样本对机器翻译模型进行对抗性训练。该过程生成对抗样本时需要预先构建生成对抗网络,而网络参数处理较为复杂,工作量较为繁琐,导致对抗样本的生成效率较低,进而导致模型的训练效率低。
[0004]还有一种基于优化算法的机器翻译模型的对抗性训练方法,将文本对抗攻击任务表述为带约束的优化问题,利用现有的如梯度优化、遗传算法优化等优化技术求解,得到同义词替换的对抗性样本,然后再基于对抗样本对机器翻译模型进行对抗性训练。但是,该方法只考虑到待替换词的相似单词,忽略了替换前后语义间的关联程度,导致生成的对抗样本对模型的攻击性不强,基于对抗样本训练出的模型的鲁棒性较差,从而训练出的模型对待翻译文本的翻译准确度低。

技术实现思路

[0005]鉴于上述问题,提出了本申请以便提供一种翻译、对抗样本生成、模型鲁棒性增强方法及相关装置,用于解决现有技术存在的文本翻译的准确度低以及模型训练效率低的问题。具体方案如下:
[0006]第一方面,提供了一种翻译方法,包括:
[0007]获取第一语种的待翻译文本;
[0008]利用预训练的鲁棒性增强的机器翻译模型对所述待翻译文本进行翻译,得到所述待翻译文本对应的第二语种的文本翻译结果;
[0009]所述鲁棒性增强的机器翻译模型的训练过程,包括:
[0010]获取训练源输入文本,并确定所述训练源输入文本中的待替换词的候选词集,所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词,所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值;
[0011]计算所述候选词集中的词替换所述待替换词前后文本的语义相似度;
[0012]计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度;
[0013]根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本;
[0014]将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练,得到鲁棒性增强的机器翻译模型。
[0015]第二方面,提供了一种对抗样本生成方法,包括:
[0016]获取训练源输入文本,并确定所述训练源输入文本中的待替换词的候选词集,所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词,所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值;
[0017]计算所述候选词集中的词替换所述待替换词前后文本的语义相似度;
[0018]计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度;
[0019]根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本。
[0020]第三方面,提供了一种机器翻译模型鲁棒性增强方法,包括:
[0021]采用上述的方法生成所述训练对抗样本;
[0022]将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练,得到鲁棒性增强的机器翻译模型,其中,所述预训练的机器翻译模型为以标注所述参考翻译文本标签的所述训练源输入文本作为训练数据训练得到。
[0023]第四方面,提供了一种翻译装置,包括:
[0024]待翻译文本获取单元,用于获取第一语种的待翻译文本;
[0025]模型翻译单元,用于利用预训练的鲁棒性增强的机器翻译模型对所述待翻译文本进行翻译,得到所述待翻译文本对应的第二语种的文本翻译结果;
[0026]所述鲁棒性增强的机器翻译模型的训练过程,包括:
[0027]获取训练源输入文本,并确定所述训练源输入文本中的待替换词的候选词集,所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词,所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值;
[0028]计算所述候选词集中的词替换所述待替换词前后文本的语义相似度;
[0029]计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度;
[0030]根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本;
[0031]将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练,得到鲁棒性增强的机器翻译模型。
[0032]第五方面,提供了一种电子设备,包括:存储器和处理器;
[0033]所述存储器,用于存储程序;
[0034]所述处理器,用于执行所述程序,实现如上述任一项中所述的翻译方法的各个步骤,或实现如上述所述的对抗样本生成方法的各个步骤,或实现如上述所述的机器翻译模型鲁棒性增强方法的各个步骤。
[0035]借由上述技术方案,本申请获取待翻译文本,利用预训练的鲁棒性增强的机器翻
译模型对待翻译文本进行翻译,得到待翻译文本对应的文本翻译结果。由于用于训练鲁棒增强的机器翻译模型的训练对抗样本的生成过程考虑了待替换词的同义词以及替换前后文本的语义相似度,同时在训练源输入文本上添加正则化后的扰动信息,而非直接添加扰动信息,确保了在训练源输入文本上添加尽可能小的扰动的情况下生成对抗性强的训练对抗样本,由此基于对抗样本对模型进行训练,提高了鲁棒性增强的机器翻译模型的鲁棒性,基于鲁棒性增强的机器翻译模型对待翻译文本进行翻译,可以得到更准确的文本翻译结果;同时,鲁棒性增强的机器翻译模型的训练过程无需构建其他网络,生成训练对抗样本的效率更高,进而模型训练效率更高。
附图说明
[0036]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
...

【技术保护点】

【技术特征摘要】
1.一种翻译方法,其特征在于,包括:获取待翻译文本;利用预训练的鲁棒性增强的机器翻译模型对所述待翻译文本进行翻译,得到所述待翻译文本对应的文本翻译结果;所述鲁棒性增强的机器翻译模型的训练过程,包括:获取训练源输入文本,并确定所述训练源输入文本中的待替换词的候选词集,所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词,所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值;计算所述候选词集中的词替换所述待替换词前后文本的语义相似度;计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度;根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本;将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练,得到鲁棒性增强的机器翻译模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述训练源输入文本中的待替换词的候选词集,包括:将所述训练源输入文本包含的各分词依次掩盖,在每次掩盖一个分词后,将掩盖分词后的文本输入预训练的掩码语言模型,得到模型输出的被掩盖分词的显著性得分,其中,一分词的显著性得分越高,表征该分词与上下文的语义关联程度越低,所述掩码语言模型为,以标注有被掩盖分词的显著性得分标签的掩盖分词后的训练文本作为训练数据训练得到;将所述训练源输入文本中显著性得分最高的至少一个分词分别确定为所述待替换词;从预设的字典集中筛选与所述待替换词的欧氏距离小于预设的距离阈值的候选词,由筛选出的候选词组成所述候选词集。3.根据权利要求1所述的方法,其特征在于,所述计算所述候选词集中的词替换所述待替换词前后文本的语义相似度,包括:确定替换前的所述训练源输入文本的第一向量表示,并确定所述候选词集中的词替换所述待替换词后的文本的第二向量表示;计算所述第一向量表示分别与所述候选词集中的词替换所述待替换词后的文本的第二向量表示的余弦相似度,所述余弦相似度作为所述语义相似度。4.根据权利要求1所述的方法,其特征在于,所述计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度,包括:根据所述训练源输入文本进行分布估计处理,得到扰动前所述训练源输入文本对应的第一概率分布函数;根据所述候选词集中的词对应的正则化后的扰动信息和所述训练源输入文本进行分布估计处理,得到扰动后文本对应的第二概率分布函数,并计算所述第二概率分布函数和所述第一概率分布函数的KL散度。5.根据权利要求1所述的方法,其特征在于,所述根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,包括:
针对所述候选词集包含的每个词,将该词替换所述待替换词前后文本的语义相似度,和所述训练源输入文本添加该词对应的正则化后的扰动信息前后文本的信息散度进行加权求和,加权求和值作为该词对应的综合损失值;将所述候选词集中综合损失值最...

【专利技术属性】
技术研发人员:韩雯方明陈霆刘鹏
申请(专利权)人:山东科讯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1