【技术实现步骤摘要】
基于术语保护的机器翻译方法及装置
[0001]本申请涉及自然语言处理领域,具体而言,涉及一种基于术语保护的机器翻译方法、装置、计算机设备和存储介质。
技术介绍
[0002]深度学习时代,机器翻译主要依靠从大量的平行语料学习语言对之间的翻译规律,但是传统的基于深度学习的机器翻译方法很难正确的翻译非常罕见的单词或者字符。对于这些词语或者字符,机器翻译系统往往用一个特殊的符号(如<unk>,意为unknown word)来表示它们。如图1所示,“en:”为待翻译的英文原文,“fr:”为该英文原文的参考译文,“nn:”为没有对罕见词进行特殊处理的机器翻译模型生成的译文,符号“unk”表示这是一个罕见词,图中的连线展示了原文中的词与译文中的词之间的对应关系。由于翻译模型在训练的过程中没有见过这些词,没有学习到该如何进行翻译,也就只能使用一刀切的方式使用“unk”替代无法翻译的词语。
[0003]而上述这种表示方法存在无法定位生成的“unk”字符对应原文中哪一个具体字词,造成信息丢失的问题;并且如果待 ...
【技术保护点】
【技术特征摘要】
1.一种基于术语保护的机器翻译方法,其特征在于,包括:搜集海量平行语料,包含原文和其对应的参考译文;对原文和其对应的参考译文进行分词,得到第一集合;将所述第一集合输入训练后的IBM Model模型中,输出词对齐概率;根据所述词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练;基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果。2.根据权利要求1所述的基于术语保护的机器翻译方法,其特征在于,所述根据所述词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练,包括:从一条平行语料中选择词对齐概率高于预设阈值的一组或者几组词;针对所选择的词组,对原文中的词进行占位符的替换,对译文中的词进行占位符的替换以及相对位置进行标记;将所有平行语料通过上述步骤进行处理后,输入Transformer模型进行训练。3.根据权利要求2所述的基于术语保护的机器翻译方法,其特征在于,所述基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果,包括:将待翻译原文输入机器翻译模型中,输出的译文中包含占位符,以及与占位符对应的词在原文中的相对位置;通过相对位置查找原文中被标记的词语,在自定义词典中查找与该词语对应的译文,并替换掉译文中的占位符+相对位置,从而得到翻译结果。4.根据权利要求3所述的基于术语保护的机器翻译方法,其特征在于,所述方法还包括:在自定义词典中无法查找该词语对应的译文时,手动添加与该词语对应的译文标签,并该标签存储在自定义词典中,以便后续进行替换。5.根据权利要求1所述的基于术语保护的机器翻译方法,其特征在于,所述将所述第一集合输入训练后的IBM Model模型中,输出词对齐概率,包括:步骤1:对第一集合中所有语言对的词对齐概率分布进行初始化处理,得到词对齐初始值;步骤2:根据所有语言对的...
【专利技术属性】
技术研发人员:朱宪超,韩冰,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。