【技术实现步骤摘要】
一种基于人机交互机器翻译系统及其自动优化方法
本专利技术涉及自然语言处理
,具体而言,涉及一种基于人机交互机器翻译系统及其自动优化方法。
技术介绍
随着深度学习技术的飞速发展,基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台),实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑,然后译后编辑的句对作为翻译资源加入记忆库,并作为下次类似文本翻译的推荐,同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位,人机翻译平台使得机器翻译和机器辅助翻译形成优势互补,在大幅提升了翻译效率同时,也积累部分经过人工校译的高质量平行语料。如果能够在训练语料中融入一定规模的人工校译的高质量平行语料,可以有效提升模型在用户应用领域的翻译能力,但人工校译语料规模有限,单纯将该部分语料加入训练集进行模型训练发挥的作用有限。此外,当前大部分平台提供的术语翻译功能,基本上是通过先翻译后替换实现,此方法虽然可以保证专业术语被正确翻译,但翻译过程中却丢掉了术语的上下文信息,无法保证最终翻译出的句子是最优结果。
技术实现思路
鉴于上述问题,本专利技术提供了一种基于人机交互机器翻译系统及其自动优化方法。为解决上述技术问题,本专利技术采用的技术方案是:一种基于人机交互机器翻译系统的自动优化方法,包括:采用基础平行语料库训练机器翻译模型,获取基于所述机 ...
【技术保护点】
1.一种基于人机交互机器翻译系统的自动优化方法,其特征在于,包括:/n采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;/n构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;/n根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;/n构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;/n将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;/n构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;/n将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。/n
【技术特征摘要】
1.一种基于人机交互机器翻译系统的自动优化方法,其特征在于,包括:
采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;
构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;
根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;
构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;
将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;
构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;
将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。
2.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型。
3.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,根据所述多个同义句与原语言端句子的相似度,挑选出同义句,包括:
将原语言端句子表示为向量同义句表示为向量
根据相似度计算公式计算出similarity值,所述相似度计算公式为
其中,similiarity∈(0,1);
若similiarity值>0.95,则挑选出所述同义句。
4.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,还包括:从所述人工校译平行语料库中随机抽取若干句对,并对所述句对进行3-5倍重复扩充后,输入至机器翻译模型进行训练。
5.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,所述生成回译平行语料库,包括:利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语...
【专利技术属性】
技术研发人员:刘均伟,梁钦,段轶,张潺,陈慷,
申请(专利权)人:江苏金陵科技集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。