一种基于人机交互机器翻译系统及其自动优化方法技术方案

技术编号:28559969 阅读:16 留言:0更新日期:2021-05-25 17:54
本发明专利技术提出了一种基于人机交互机器翻译系统及其自动优化方法,该方法包括:借助回环翻译技术以人工校译语料完成用户应用领域平行语料库定向增强,通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料,将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料,在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明专利技术利用人机翻译系统积累的高质量平行语料在线上完成机器翻译模型的自动优化,使语料库管理与建设、机器翻译、机器辅助翻译、在线训练各个环节形成闭环,从而不断提升人机翻译平台对特定用户应用领域数据的翻译能力。

【技术实现步骤摘要】
一种基于人机交互机器翻译系统及其自动优化方法
本专利技术涉及自然语言处理
,具体而言,涉及一种基于人机交互机器翻译系统及其自动优化方法。
技术介绍
随着深度学习技术的飞速发展,基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台),实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑,然后译后编辑的句对作为翻译资源加入记忆库,并作为下次类似文本翻译的推荐,同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位,人机翻译平台使得机器翻译和机器辅助翻译形成优势互补,在大幅提升了翻译效率同时,也积累部分经过人工校译的高质量平行语料。如果能够在训练语料中融入一定规模的人工校译的高质量平行语料,可以有效提升模型在用户应用领域的翻译能力,但人工校译语料规模有限,单纯将该部分语料加入训练集进行模型训练发挥的作用有限。此外,当前大部分平台提供的术语翻译功能,基本上是通过先翻译后替换实现,此方法虽然可以保证专业术语被正确翻译,但翻译过程中却丢掉了术语的上下文信息,无法保证最终翻译出的句子是最优结果。
技术实现思路
鉴于上述问题,本专利技术提供了一种基于人机交互机器翻译系统及其自动优化方法。为解决上述技术问题,本专利技术采用的技术方案是:一种基于人机交互机器翻译系统的自动优化方法,包括:采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出的结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。作为优选方案,所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型。作为优选方案,根据所述多个同义句与原语言端句子的相似度,挑选出同义句,包括:将原语言端句子表示为向量同义句表示为向量根据相似度计算公式计算出similarity值,所述相似度计算公式为其中,similiarity∈(0,1);若similiarity值>0.95,则挑选出所述同义句。作为优选方案,还包括:从所述人工校译平行语料库中随机抽取若干句对,并对所述句对进行3-5倍重复扩充后,输入至机器翻译模型进行训练。作为优选方案,所述生成回译平行语料库,包括:利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语料库中的目标语言句子逐一翻译成原语言句子,然后将所述原语言句子和对应的目标语言句子一一结成句对,生成回译平行语料库。作为优选方案,所述文本生成模型采用通用神经网络技术及其组合,或采用GPT2/GPT3文本生成技术及其变种。本专利技术还提供了一种人机交互机器翻译系统,包括:语料库管理模块,用于存储基础平行语料库和人工校译平行语料库,并基于所述人工校译平行语料库生成回环平行语料库和目标语言单语语料库,同时基于所述目标语言单语语料库生成回译平行语料库,所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后生成总语料库;在线训练模块,用于接收所述总语料库,并利用所述总语料库对机器翻译模型进行训练;机器翻译模块,用于加载训练后的机器翻译模型,以提供翻译服务;机器辅助翻译模块,用于对机器翻译模块的输出结果提供人工校译功能。作为优选方案,所述回环平行语料库通过以下步骤生成:构建回环翻译模型,将所述人工校译平行语料库中的原语言端句子输入至回环翻译模型,生成多个同义句;根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述人工校译平行语料库中的目标语言端句子一一结成句对,生成回环平行语料库。作为优选方案,所述目标语言单语语料库包括第一目标语言单语语料库和第二目标语言单语语料库,其通过以下步骤生成:构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;将所述人工校译平行语料库中的目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库。作为优选方案,所述回译平行语料库通过以下步骤生成:构建回译模型,利用所述回译模型将目标语言单语语料库中的目标语言句子逐一翻译成原语言句子;将所述原语言句子和对应的目标语言句子一一结成句对,生成回译平行语料库。与现有技术相比,本专利技术实施例的有益效果包括:借助回环翻译技术及人工校译语料完成用户应用领域平行语料定向增强,通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料,将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料,在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本专利技术实施例实现了机器翻译模型的自动优化,在降低人为干预的基础上保证了翻译质量的不断提升;由于借助回环翻译模型、文本生成及回译等技术手段自动构建了颇具规模的用户应用领域平行语料,使得平台自动优化的模型对用户业务领域的数据适应性更强,专业术语能够充分利用上下文信息翻译地更加精准,从而提升了用户体验。附图说明参照附图来说明本专利技术的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本专利技术的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:图1为本专利技术实施例的基于人机交互机器翻译系统的自动优化方法的流程示意图;图2为本专利技术实施例的人机交互机器翻译系统的结构示意图。具体实施方式容易理解,根据本专利技术的技术方案,在不变更本专利技术实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本专利技术的技术方案的示例性说明,而不应当视为本专利技术的全部或者视为对本专利技术技术方案的限定或限制。本专利技术公开的一种基于人机交互机器翻译系统的自动优化方法应用于人机交互机器翻译系统中,该人机交互机器翻译系统至少包括语料库管理模块、机器翻译模块、机器辅助翻译模块、在线训练模块等本文档来自技高网...

【技术保护点】
1.一种基于人机交互机器翻译系统的自动优化方法,其特征在于,包括:/n采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;/n构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;/n根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;/n构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;/n将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;/n构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;/n将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。/n

【技术特征摘要】
1.一种基于人机交互机器翻译系统的自动优化方法,其特征在于,包括:
采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;
构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;
根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;
构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;
将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;
构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;
将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。


2.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型。


3.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,根据所述多个同义句与原语言端句子的相似度,挑选出同义句,包括:
将原语言端句子表示为向量同义句表示为向量
根据相似度计算公式计算出similarity值,所述相似度计算公式为

其中,similiarity∈(0,1);
若similiarity值>0.95,则挑选出所述同义句。


4.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,还包括:从所述人工校译平行语料库中随机抽取若干句对,并对所述句对进行3-5倍重复扩充后,输入至机器翻译模型进行训练。


5.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,所述生成回译平行语料库,包括:利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语...

【专利技术属性】
技术研发人员:刘均伟梁钦段轶张潺陈慷
申请(专利权)人:江苏金陵科技集团有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1