基于翻译记忆库的机器翻译方法及装置制造方法及图纸

技术编号:28503458 阅读:23 留言:0更新日期:2021-05-19 22:51
本发明专利技术提供一种基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文;将待翻译原文和语料原文进行比较,获取语料原文中与待翻译原文不同的差异部分;将差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和待翻译原文作为机器翻译模型的输入,输出待翻译原文的译文;其中,机器翻译模型由翻译原文样本作为样本,翻译原文样本对应的译文作为标签进行训练获得。本发明专利技术实现联合待翻译原文和语料原文的译文进行翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。提高翻译的准确性。提高翻译的准确性。

【技术实现步骤摘要】
基于翻译记忆库的机器翻译方法及装置


[0001]本专利技术涉及机器翻译
,尤其涉及一种基于翻译记忆库的机器翻译方法及装置。

技术介绍

[0002]翻译记忆库是译员在翻译过程中产生并保留的双语语料,通常都是经过人工校对之后译文质量比较高的数据。由于翻译记忆库中的语料有限,很可能从翻译记忆库中检索出不出与当前待翻译文本完全一样的语料,从而无法直接从翻译记忆库中获得当前待翻译文本的译文。
[0003]翻译记忆库可用来辅助当前的翻译任务。现有的方式是从翻译记忆库中检索出与当前待翻译文本相似的语料,将其对应的译文呈现给译员。译员根据当前待翻译文本对相似语料的译文进行手动修改获得当前待翻译文本的译文。
[0004]由于相似语料的原文和译文之间句子结构、表述方式等差别较大,译员需要花费大量时间对相似语料的译文进行核对和编辑,工作强度大。

技术实现思路

[0005]本专利技术提供一种基于翻译记忆库的机器翻译方法及装置,用以解决现有技术中译员对相似语料的译文进行核对和编辑时,费时费力的缺陷,实现基于翻译记忆库自动对待翻译文本进行翻译。
[0006]本专利技术提供一种基于翻译记忆库的机器翻译方法,包括:
[0007]从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
[0008]将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
[0009]将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
[0010]将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
[0011]其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
[0012]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:
[0013]将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;
[0014]将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;
[0015]将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
[0016]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:
[0017]将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
[0018]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
[0019]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,若所述差异部分为多个,则替换每个所述差异部分映射的译文的掩码还包括每个差异部分的编号,所述编号位于所述括号内部。
[0020]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,所述将所述差异部分映射到所述语料原文的译文,包括:
[0021]将所述语料原文和所述语料原文的译文进行词对齐;
[0022]根据词对齐结果,将所述差异部分映射到所述语料原文的译文。
[0023]根据本专利技术提供的一种基于翻译记忆库的机器翻译方法,所述机器翻译模型为Transformer模型。
[0024]本专利技术还提供一种基于翻译记忆库的机器翻译装置,包括:
[0025]查找模块,用于从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
[0026]比较模块,用于将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
[0027]替换模块,用于将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
[0028]翻译模块,用于将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
[0029]其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
[0030]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于翻译记忆库的机器翻译方法的步骤。
[0031]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于翻译记忆库的机器翻译方法的步骤。
[0032]本专利技术提供的基于翻译记忆库的机器翻译方法及装置,通过在翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文,并自动对待翻译原文和语料原文进行相似性比较,有效减少人工校核的工作强度,然后将语料原文中的差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码,最后联合替换后的
语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
附图说明
[0033]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本专利技术提供的基于翻译记忆库的机器翻译方法的流程示意图之一;
[0035]图2是本专利技术提供的基于翻译记忆库的机器翻译方法中机器翻译模型的结构示意图;
[0036]图3是本专利技术提供的基于翻译记忆库的机器翻译方法的流程示意图之二;
[0037]图4是本专利技术提供的基于翻译记忆库的机器翻译装置的结构示意图;
[0038]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0039]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]下面结合图1描述本专利技术的基于翻译记忆库的机器翻译方法,该方法包括:步骤101,从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
[0041]其中,待翻译原文可以是各应用领域中需要进行翻译的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于翻译记忆库的机器翻译方法,其特征在于,包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。2.根据权利要求1所述的基于翻译记忆库的机器翻译方法,其特征在于,所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。3.根据权利要求2所述的基于翻译记忆库的机器翻译方法,其特征在于,所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。4.根据权利要求1

3任一所述的基于翻译记忆库的机器翻译方法,其特征在于,所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。5.根据权利要求4所述的基于...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1