【技术实现步骤摘要】
一种基于词典约束的机器翻译模型训练方法、装置及设备
[0001]本申请涉及机器翻译
,尤其涉及一种基于词典约束的机器翻译模型训练方法、装置及设备。
技术介绍
[0002]机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学等学科,是人工智能的终极目标之一。
[0003]机器翻译的翻译质量与相应领域语料数据的规模息息相关。理论上,当领域内语料数量足够大时,训练出的翻译模型可以将待翻译的领域文本中的术语很好地翻译出来。然而,在实际应用场景中,特定领域相关的高质量平行语料较为匮乏,对于领域文本中存在的大量领域术语而言,利用通用语料训练得到的机器翻译模型很难生成准确的目标术语翻译。
[0004]为了让通用模型能在特定领域中发挥更好的作用,学术界和工业界通常会在模型的解码端引入外部资源来对译文生成过程进行干预,在多个候选项中选择最合适的翻译结果进行输出,以保证术语翻译质量。将外部资源引入到模型解码阶段,虽然在一定程度上提高了术语翻译质量, ...
【技术保护点】
【技术特征摘要】
1.一种基于词典约束的机器翻译模型训练方法,其特征在于,包括:确定目标领域双语术语词典和双语语料库,所述目标领域双语术语词典用于确定目标领域术语及目标领域术语译文,所述双语语料库包括通用双语语料库;基于所述目标领域双语术语词典和所述双语语料库,确定带有预设术语约束标记的训练语料集和验证语料集,所述预设术语约束标记包括待翻译术语译文;基于训练语料集和验证语料集,对预先构建的初始机器翻译模型进行训练,得到目标机器翻译模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标领域双语术语词典和所述双语语料库,确定带有预设术语约束标记的训练语料集和验证语料集,包括:基于所述目标领域双语术语词典,对所述通用双语语料库进行筛选,得到包含目标领域术语的术语语料和不包含目标领域术语的非术语语料;在所述术语语料中添加预设术语约束标记,得到标记术语语料;将所述标记术语语料分为验证语料集和训练语料;将所述训练语料和所述非术语语料按预设比例混合并重新排序,得到训练语料集。3.根据权利要求2所述的方法,其特征在于,所述双语语料库还包括目标领域双语语料库,在所述术语语料中添加预设术语约束标记,得到标记术语语料之前,包括:将所述术语语料与所述目标领域双语语料库混合,得到新的术语语料。4.根据权利要求2或3所述的方法,其特征在于,在所述术语语料中添加预设术语约束标记,包括:确定所述术语语料中的待翻译术语;利用所述预设术语约束标记替换所述待翻译术语,其中,所述预设术语约束标记还包括所述待翻译术语。5.根据权利要求4所述的方法,其特征在于,所述预设术语约束标记的格式为:<开始标识>被翻译术语<翻译标...
【专利技术属性】
技术研发人员:张一鸣,宗浩,贝超,苑聪虎,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。