一种面向小语种包含精确术语匹配的机器翻译方法技术

技术编号:26763969 阅读:49 留言:0更新日期:2020-12-18 23:32
本发明专利技术公开了一种面向小语种包含精确术语匹配的机器翻译方法,包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。

【技术实现步骤摘要】
一种面向小语种包含精确术语匹配的机器翻译方法
:本专利技术属于语言文字处理
,特别涉及一种面向小语种包含精确术语匹配的机器翻译方法。
技术介绍
:随着神经机器翻译技术的迅速发展,越来越多的译员开始采用神经机器翻译来帮助自己完成翻译任务,目前神经机器翻译技术已相对成熟,通常经过平行语料收集/标注、语料预处理、二值化处理、模型训练、模型服务化等过程完成机器翻译引擎构建,最终提供机器翻译服务。其中,平行语料是一种稀缺资源,尤其是小语种与汉语方向的平行语料,例如维语到汉语、泰语到汉语、蒙古语到汉语,但目前工业级的机器翻译应用还主要是依赖于平行语料的监督学习方法为主,没有百万级以上的平行语料规模很难训练出有实战意义的小语种到汉语的神经翻译模型。另外,对行业术语大多数机器翻译引擎很难翻译得准确,相对普遍的方式是对术语翻译进行译前干预,让译员可以导入指定的双语术语构建术语库,进行翻译时将待翻译文本中的术语用占位符进行替换,利用机器翻译引擎和预先建立的术语库,对替换后的待翻译文本进行翻译和术语替换,但是目前大部分的替换方法比较武断,在模型训练和翻译过程中没有考虑短语结构,很容易将句子中原有的句子结构破坏,影响最终的翻译质量。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
:针对上述背景以及技术不足,本专利技术公开了一种面向小语种包含精确术语匹配的机器翻译方法。该方法旨改进数据稀疏的小语种到汉语的机器翻译方法及模型训练及应用过程中各个环节的易用性以及整体的使用效率及体验。为实现上述目的,本专利技术提供了一种面向小语种包含精确术语匹配的机器翻译方法,包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。优选地,上述技术方案中,首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。优选地,上述技术方案中,详细的步骤如下:步骤1,语料收集:虽然公开的数据集中待翻译小语种到汉语的平行语料较少,但非汉语大语种与汉语、待翻译小语种与非汉语大语种的双语平行语料以及汉语单语语料相对较多,从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库(里面是源语言是待翻译小语种,目的语言是汉语的词对);步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型;步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型;步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料F;步骤8,构建自动机双数组前缀树:机器翻译实际用户将积累的领域内待翻译小语种与汉语双语术语词典导入机器翻译系统,生成自动机双数组前缀树,用于待翻译句子潜在术语检索;步骤9,生成术语占位符训练语料:借助待翻译小语种与汉语双语术语词典库,遍历平行语料E和平行语料F,借助自动机双数组前缀树搜索待翻译小语种句子中包含待翻译小语种术语,并且对应的汉语句子中包含待翻译小语种术语对应的汉语译文的所有平行句对,将查找到的句对利用自然语言处理工具进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将对应的双语句子中的术语以及译文替换成占位符,考虑到单个句子中可能会出现多个术语,可以通过替换成多个不同的占位符生成多条平行语料,最终生成占位符平行语料G;步骤10,待翻译小语种和汉语神经机器翻译模型训练:经过上述步骤,已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G,从多种途径完成了待翻译小语种与汉语的双语平行语料的数据增强;针对最终形成的待翻译小语种与汉语平行语料,利用神经机器翻译训练出待翻译小语种到汉语的基于Transformer的神经机器翻译模型;步骤11,待翻译小语种和汉语神经机器翻译模型应用:输入待翻译的待翻译小语种语句,借助自动机双数组前缀树搜索句子中是否包含潜在术语,如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将搜索到的术语替换成占位符,然后调用待翻译小语种和汉语神经机器翻译模型完成待翻译的待翻译小语种句子推理得到汉语译文,将汉语译文中的占位符替换成术语对应的汉语译文,完成包含术语翻译的机器翻译过程,如果自动机双数组前缀树没有搜索到潜在术语,则直接翻译得到汉语译文。优选地,上述技术方案中,汉语也可以换成其他待翻译语种,优选地,上述技术方案中,非汉语大语种为英语、俄语、阿拉伯语、法语和西班牙语,所述待翻译小语种是非汉语大语种以外的其他各类世界通行语种。与现有技术相比,本专利技术具有如下有益效果:本专利技术提供的机器翻译方法融合了多种不同形式来源的平行语料完成了最终的数据增强,解决了小语种到汉语方向平行语料少的难题,在保证可用性的基础上降低了小语种到汉语机器翻译引擎构建成本,同时该方法在模型训练和翻译过程中引入了精确匹配用户术语处理流程,保证术语翻译的可信度,提升了系统的实用性,加强了用户体验。附图说明:图1是本专利技术收集处理的语料集;图2是本发本文档来自技高网...

【技术保护点】
1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。/n

【技术特征摘要】
1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。


2.根据权利要求1所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。


3.根据权利要求2所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:详细的步骤如下:
步骤1,语料收集:从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库;
步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;
步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;
步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型;
步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型;
步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;
步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利...

【专利技术属性】
技术研发人员:刘均伟梁钦段轶
申请(专利权)人:江苏金陵科技集团有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1