翻译、对抗样本生成、模型鲁棒性增强方法及相关装置制造方法及图纸

技术编号：37364854 阅读：21 留言：0更新日期：2023-04-27 07:12

本申请公开了翻译、对抗样本生成、模型鲁棒性增强方法及相关装置，利用预训练的鲁棒性增强的机器翻译模型对待翻译文本进行翻译，得到文本翻译结果，鲁棒性增强的机器翻译模型以标注参考翻译文本标签的训练对抗样本作为训练数据进行对抗性训练，训练对抗样本通过对训练源输入文本中的待替换词用候选的同义词替换得到，候选的同义词为根据训练源输入文本添加待替换词的候选词集中的词对应的正则化后的扰动信息前后文本的信息散度，以及候选词集中的词替换待替换词前后文本的语义相似度，从候选词集中筛选出的词。本申请在尽可能小的扰动下得到训练对抗样本，然后训练模型，提高了模型的翻译准确度，模型训练阶段无需额外构建网络，训练效率更高。训练效率更高。训练效率更高。

全部详细技术资料下载

【技术实现步骤摘要】
翻译、对抗样本生成、模型鲁棒性增强方法及相关装置

[0001]本申请涉及翻译
，更具体的说，是涉及翻译、对抗样本生成、模型鲁棒性增强方法及相关装置。

技术介绍

[0002]神经网络机器翻译(Neural Machine Tranlation，NMT)是机器翻译任务的一个重要研究方向，神经网络机器翻译模型的安全性是目前需要重点考虑的问题，研究表明对模型的原输入施加轻微扰动以生成对抗样本，能够使模型出错，据此对模型进行对抗训练可以提高模型的鲁棒性。
[0003]在现有工作中，一种用于机器翻译模型的对抗性训练过程为，将原始样本输入生成对抗网络，以在该网络中将原始样本映射到分布空间中，并在其中查找搜索出与输入服从相同分布的文本嵌入式表示，得到对抗样本，然后基于对抗样本对机器翻译模型进行对抗性训练。该过程生成对抗样本时需要预先构建生成对抗网络，而网络参数处理较为复杂，工作量较为繁琐，导致对抗样本的生成效率较低，进而导致模型的训练效率低。
[0004]还有一种基于优化算法的机器翻译模型的对抗性训练方法，将文本对抗攻击任务表述为带约束的优化问题，利用现有的如梯度优化、遗传算法优化等优化技术求解，得到同义词替换的对抗性样本，然后再基于对抗样本对机器翻译模型进行对抗性训练。但是，该方法只考虑到待替换词的相似单词，忽略了替换前后语义间的关联程度，导致生成的对抗样本对模型的攻击性不强，基于对抗样本训练出的模型的鲁棒性较差，从而训练出的模型对待翻译文本的翻译准确度低。

技术实现思路

[0005]鉴于上述

【技术保护点】

【技术特征摘要】
1.一种翻译方法，其特征在于，包括：获取待翻译文本；利用预训练的鲁棒性增强的机器翻译模型对所述待翻译文本进行翻译，得到所述待翻译文本对应的文本翻译结果；所述鲁棒性增强的机器翻译模型的训练过程，包括：获取训练源输入文本，并确定所述训练源输入文本中的待替换词的候选词集，所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词，所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值；计算所述候选词集中的词替换所述待替换词前后文本的语义相似度；计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度；根据所述语义相似度和所述信息散度，从所述候选词集中筛选所述待替换词对应的候选的同义词，将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本；将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练，得到鲁棒性增强的机器翻译模型。2.根据权利要求1所述的方法，其特征在于，所述确定所述训练源输入文本中的待替换词的候选词集，包括：将所述训练源输入文本包含的各分词依次掩盖，在每次掩盖一个分词后，将掩盖分词后的文本输入预训练的掩码语言模型，得到模型输出的被掩盖分词的显著性得分，其中，一分词的显著性得分越高，表征该分词与上下文的语义关联程度越低，所述掩码语言模型为，以标注有被掩盖分词的显著性得分标签的掩盖分词后的训练文本作为训练数据训练得到；将所述训练源输入文本中显著性得分最高的至少一个分词分别确定为所述待替换词；从预设的字典集中筛选与所述待替换词的欧氏距离小于预设的距离阈值的候选词，由筛选出的候选词组成所述候选词集。3.根据权利要求1所述的方法，其特征在于，所述计算所述候选词集中的词替换所述待替换词前后文本的语义相似度，包括：确定替换前的所述训练源输入文本的第一向量表示，并确定所述候选词集中的词替换所述待替换词后的文本的第二向量表示；计算所述第一向量表示分别与所述候选词集中的词替换所述待替换词后的文本的第二向量表示的余弦相似度，所述余弦相似度作为所述语义相似度。4.根据权利要求1所述的方法，其特征在于，所述计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度，包括：根据所述训练源输入文本进行分布估计处理，得到扰动前所述训练源输入文本对应的第一概率分布函数；根据所述候选词集中的词对应的正则化后的扰动信息和所述训练源输入文本进行分布估计处理，得到扰动后文本对应的第二概率分布函数，并计算所述第二概率分布函数和所述第一概率分布函数的KL散度。5.根据权利要求1所述的方法，其特征在于，所述根据所述语义相似度和所述信息散度，从所述候选词集中筛选所述待替换词对应的候选的同义词，包括：
针对所述候选词集包含的每个词，将该词替换所述待替换词前后文本的语义相似度，和所述训练源输入文本添加该词对应的正则化后的扰动信息前后文本的信息散度进行加权求和，加权求和值作为该词对应的综合损失值；将所述候选词集中综合损失值最...

【专利技术属性】
技术研发人员：韩雯，方明，陈霆，刘鹏，
申请(专利权)人：山东科讯信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人