一种基于人机交互机器翻译系统及其自动优化方法技术方案

技术编号：28559969 阅读：16 留言：0更新日期：2021-05-25 17:54

本发明专利技术提出了一种基于人机交互机器翻译系统及其自动优化方法，该方法包括：借助回环翻译技术以人工校译语料完成用户应用领域平行语料库定向增强，通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料，将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料，在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明专利技术利用人机翻译系统积累的高质量平行语料在线上完成机器翻译模型的自动优化，使语料库管理与建设、机器翻译、机器辅助翻译、在线训练各个环节形成闭环，从而不断提升人机翻译平台对特定用户应用领域数据的翻译能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人机交互机器翻译系统及其自动优化方法
本专利技术涉及自然语言处理
，具体而言，涉及一种基于人机交互机器翻译系统及其自动优化方法。
技术介绍
随着深度学习技术的飞速发展，基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台)，实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑，然后译后编辑的句对作为翻译资源加入记忆库，并作为下次类似文本翻译的推荐，同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位，人机翻译平台使得机器翻译和机器辅助翻译形成优势互补，在大幅提升了翻译效率同时，也积累部分经过人工校译的高质量平行语料。如果能够在训练语料中融入一定规模的人工校译的高质量平行语料，可以有效提升模型在用户应用领域的翻译能力，但人工校译语料规模有限，单纯将该部分语料加入训练集进行模型训练发挥的作用有限。此外，当前大部分平台提供的术语翻译功能，基本上是通过先翻译后替换实现，此方法虽然可以保证专业术语被正确翻译，但翻译过程中却丢掉了术语的上下文信息，无法保证最终翻译出的句子是最优结果。
技术实现思路
鉴于上述问题，本专利技术提供了一种基于人机交互机器翻译系统及其自动优化方法。为解决上述技术问题，本专利技术采用的技术方案是：一种基于人机交互机器翻译系统的自动优化方法，包括：采用基础平行语料库训练机器翻译模型，获取基于所述机...

【技术保护点】
1.一种基于人机交互机器翻译系统的自动优化方法，其特征在于，包括：/n采用基础平行语料库训练机器翻译模型，获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库，所述人工校译平行语料库包括目标语言端句子和原语言端句子；/n构建回环翻译模型，将所述原语言端句子输入至回环翻译模型，生成多个同义句；/n根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述目标语言端句子一一结成句对，生成回环平行语料库；/n构建文本生成模型，将所述术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；/n将所述目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库；/n构建回译模型，将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型，生成回译平行语料库；/n将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。/n

【技术特征摘要】
1.一种基于人机交互机器翻译系统的自动优化方法，其特征在于，包括：
采用基础平行语料库训练机器翻译模型，获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库，所述人工校译平行语料库包括目标语言端句子和原语言端句子；
构建回环翻译模型，将所述原语言端句子输入至回环翻译模型，生成多个同义句；
根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述目标语言端句子一一结成句对，生成回环平行语料库；
构建文本生成模型，将所述术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；
将所述目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库；
构建回译模型，将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型，生成回译平行语料库；
将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。

2.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，所述构建回环翻译模型，包括：选取与所述原语言端句子相对应的中间语言，构建从原语言到中间语言的机器翻译模型，然后构建从中间语言到同义语言的机器翻译模型。

3.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，根据所述多个同义句与原语言端句子的相似度，挑选出同义句，包括：
将原语言端句子表示为向量同义句表示为向量
根据相似度计算公式计算出similarity值，所述相似度计算公式为

其中，similiarity∈(0，1)；
若similiarity值>0.95，则挑选出所述同义句。

4.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，还包括：从所述人工校译平行语料库中随机抽取若干句对，并对所述句对进行3-5倍重复扩充后，输入至机器翻译模型进行训练。

5.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，所述生成回译平行语料库，包括：利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语...

【专利技术属性】
技术研发人员：刘均伟，梁钦，段轶，张潺，陈慷，
申请(专利权)人：江苏金陵科技集团有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人