一种人机交互机器翻译系统的实现和在线更新系统及方法技术方案

技术编号:32659218 阅读:16 留言:0更新日期:2022-03-17 11:08
本发明专利技术具体涉及一种人机交互机器翻译系统的实现和在线更新系统和方法,该系统包括具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块;具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语;记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段;交互式翻译提示模块用于在交互式机器翻译过程中给出提示;翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。本发明专利技术的系统对术语进行干预,提高特殊词汇翻译的准确性;且该系统让人和机器翻译系统进行交互,能够在不断修正中生成更好的译文,更新快速。更新快速。更新快速。

【技术实现步骤摘要】
一种人机交互机器翻译系统的实现和在线更新系统及方法


[0001]本专利技术属于语言处理
,具体涉及一种人机交互机器翻译系统的实现和在线更新系统及方法。

技术介绍

[0002]随着深度学习技术的飞速发展,基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台),实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑,然后译后编辑的句对作为翻译资源加入记忆库,并作为下次类似文本翻译的推荐,同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位,人机翻译平台使得机器翻译和机器辅助翻译形成优势互补,在大幅提升了翻译效率同时,也积累部分经过人工校译的高质量平行语料。
[0003]但是,在实际应用中,经常会遇到公司名称、品牌名称、产品名称等专有名词和行业术语,比如,对于“甲骨易”这个专有名词,不同的机器翻译系统给出的结果不一样:“Oracle Easy”、“Oracle is easy”、“Oracle bone Yi”等等,而它正确的翻译应该为“Besteasy”。对于这些类似的特殊词汇,机器翻译模型很难翻译准确。一方面是因为模型大多采用通用数据集训练,并不能保证数据集能涵盖所有的语言表达。另一方面,即使训练数据中包含这些术语,它们通常也是低频的,模型不容易捕捉其规律。为了保证翻译的准确性,对术语翻译进行干预是十分有必要的。

技术实现思路

[0004]为了解决现有技术中存在的特殊词汇翻译不准确的问题,本专利技术提供了一种人机交互机器翻译系统的实现和在线更新系统及方法,在生成的译文中融入指定术语对术语进行干预,提高特殊词汇翻译的准确性。本专利技术要解决的技术问题通过以下技术方案实现:
[0005]一种人机交互机器翻译系统的实现和在线更新系统,包括:具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块;
[0006]所述具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语;
[0007]所述记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段;
[0008]所述交互式翻译提示模块用于在交互式机器翻译过程中给出提示;
[0009]所述翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。
[0010]进一步地,上述记忆库翻译片段抽取模块包括预先抽取和实时抽取;
[0011]所述预先抽取是指从预先挂载的记忆库中抽取可重复利用的双语对应片段;
[0012]所述实时抽取是指译员在完成一个句子的翻译后,从单个句子中抽取可重复利用的双语对应片段。
[0013]进一步地,上述记忆库是指双语句子对构成的集合,一般由译员之前的翻译工作积累而来。
[0014]进一步地,上述交互式机器翻译的流程为:机器翻译系统根据用户输入的源语言句子补全后半句译文,用户继续确认一部分译文,翻译系统根据用户的反馈信息再次补全译文,以此循环,直到得到最终的译文。
[0015]进一步地,交互式机器翻译过程中给出的提示为:字符级单词补全提示、单词级提示、记忆库可用片段提示以及后半句整句提示。
[0016]一种人机交互机器翻译系统的实现和在线更新方法,主要包括如下步骤:
[0017]步骤一:在生成的译文中融入指定术语;
[0018]步骤二:抽取出高质量的双语翻译片段;
[0019]步骤三:交互式机器翻译过程中,系统给出提示;
[0020]步骤四:利用新确认的翻译句在线更新模型参数。
[0021]进一步地,上述步骤一具体为:在解码时开辟多个搜索路径,比如采用10个译文生成路径,在第一个位置上选择概率最高的10个单词分别作为10个译文路径的起始点,接着在每条路径的第二个位置同样选择概率最高的10个单词,此时就产生了100种组合,取分数最高的前10个序列组合,然后继续进行第三个位置的搜索;如果将译文看作一个序列,序列中的每个单词都有一个位置,借助于机器翻译模型学到的成分对应关系,可以估算出原文术语可能对应于译文序列的第一个或第二个位置;如果在第一个位置进行目标单词搜索时,恰好出现在概率最高的前10个单词中,则直接将其选中作为译文候选词,然后继续搜索并生成后续译文;如果在第一个位置进行目标单词搜索时,没有在概率最高的前10个单词中,则将其概率提高到前十位置,然后继续搜索并生成后续译文;确保在最后生成的译文中一定包含目标单词,而且目标单词会出现在合理的位置上。
[0022]进一步地,上述步骤一具体为:在将译文输入机器翻译模型之前将其替换为术语占位符,在模型翻译完成后再将术语替换回来;该方法需要在模型训练时候加入TERM_1这类占位符进行数据增强。
[0023]进一步地,上述步骤一具体为:所述步骤三中系统给出的提示为字符级单词补全提示、单词级提示、记忆库可用片段提示和后半句整句提示。
[0024]与现有技术相比,本专利技术的有益效果:
[0025]1.本专利技术的人机交互机器翻译系统的实现和在线更新系统设计了具备术语干预能力的机器翻译模块,在生成的译文中融入指定术语,对术语进行干预,提高特殊词汇翻译的准确性;
[0026]2.本专利技术的人机交互机器翻译系统的实现和在线更新系统,融合定制术语的机器翻译系统在生成译文时会产生多个版本的译文,每个位置生成多个候选词,让用户的行为直接影响机器翻译生成译文的过程,让人和机器翻译系统进行交互,能够在不断修正中生成更好的译文;
[0027]3.本专利技术的人机交互机器翻译系统的实现和在线更新系统设计了翻译模型在线更新模块,用于利用新确认的翻译句在线更新模型参数,避免了使用全量数据训练模型周期长、成本高的问题,该系统在原来模型的基础上增加一个可在线学习的模块,每次有新增数据时,只更新这个新增模块的参数,不改变原始大模型的参数,这就保证了模型既保留了之前模型的知识又学到了新语料中的知识,从而实现快速更新的目的。
附图说明
[0028]图1是本专利技术人机交互机器翻译系统的实现和在线更新系统的结构框图。
[0029]图2是本专利技术人机交互机器翻译系统的实现和在线更新系统的总体流程图。
具体实施方式
[0030]下面结合具体实施例对本专利技术做进一步详细的描述,但本专利技术的实施方式不限于此。
[0031]为了解决现有技术中存在的特殊词汇翻译不准确的问题,本专利技术提供了一种人机交互机器翻译系统的实现和在线更新系统。参照附图1,该人机交互机器翻译系统的实现和在线更新系统,包括:具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块。
[0032]其中,具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语;记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段;交互式翻译提示模块用于在交互式机器翻译过程中给出提示;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机交互机器翻译系统的实现和在线更新系统,其特征在于:包括:具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块;所述具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语;所述记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段;所述交互式翻译提示模块用于在交互式机器翻译过程中给出提示;所述翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。2.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统,其特征在于,所述记忆库翻译片段抽取模块包括预先抽取和实时抽取;所述预先抽取是指从预先挂载的记忆库中抽取可重复利用的双语对应片段;所述实时抽取是指译员在完成一个句子的翻译后,从单个句子中抽取可重复利用的双语对应片段。3.根据权利要求2所述的人机交互机器翻译系统的实现和在线更新系统,其特征在于,所述记忆库是指双语句子对构成的集合,一般由译员之前的翻译工作积累而来。4.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统,其特征在于,所述交互式机器翻译的流程为:机器翻译系统根据用户输入的源语言句子补全后半句译文,用户继续确认一部分译文,翻译系统根据用户的反馈信息再次补全译文,以此循环,直到得到最终的译文。5.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统,其特征在于,交互式机器翻译过程中给出的提示为:字符级单词补全提示、单词级提示、记忆库可用片段提示以及后半句整句提示。6.一种人机交互机器翻译系统的实现和在线更新方法,其特征在于:主要包括如下步骤:步骤一:在生成的译文中融入指定术语;步骤二:抽取出高质...

【专利技术属性】
技术研发人员:曾辉
申请(专利权)人:甲骨易北京语言科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1