一种语句的翻译方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36379919 阅读:35 留言:0更新日期:2023-01-18 09:41
本发明专利技术实施例提供了一种语句的翻译方法、装置、电子设备和存储介质,该方法包括:在接收到待翻译的语句后,可以将待翻译的语句输入预设的第一模型中进行预测,并获取第一模型输出的针对待翻译的语句的目标语句。其中,第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;预设的平行语料中的对齐信息是由第二模型确定的,第二模型为一跨语言模型。通过本发明专利技术实施例,实现了基于跨语言模型来对齐训练专有词翻译模型时使用的平行语料中的词汇;相对于FastAlign模型来说,跨语言模型并不依赖于平行语料,从而降低了训练专有词翻译模型的投入成本。且相对于FastAlign模型来说,跨语言模型不依赖于平行语料的对齐情况,保证了所生成的对齐信息的准确性。所生成的对齐信息的准确性。所生成的对齐信息的准确性。

【技术实现步骤摘要】
一种语句的翻译方法、装置、电子设备和存储介质


[0001]本专利技术涉及翻译的
,特别是涉及一种语句的翻译方法、装置、电子设备和存储介质。

技术介绍

[0002]在全球化与信息时代的大背景下,翻译工作的意义重大。随着翻译工作量的日益增多,翻译模型应运而生。与人工翻译相比,翻译模型的效率更高,得到了更为广泛的应用。
[0003]针对语句的翻译,可以采用专有词汇翻译模型,专有词翻译模型在翻译语句时,可以按照指定的专有词翻译形式翻译句子中出现的专有词。
[0004]对于现有的专有词翻译模型来说,其模型训练是依赖于FastAlign模型对平行语料的处理;即,需要先由FastAlign对平行语料进行识别,以得到其中的对齐信息,例如:“中国”与“China”为一对对齐信息。然后,专有词翻译模型再基于对齐信息和平行语料来进行训练。
[0005]FastAlign模型在训练时是依赖于平行语料的数量的;当平行语料的数量较少时,可能会影响到FastAlign模型的效果;而平行语料的获取成本较高,为了保证FastAlign模型的效果,以保证专有词翻译模型的效果,可能需要投入较多的成本来获取用于训练的平行语料。
[0006]且FastAlign模型是基于平行语料进行的训练;当平行语料中的词的对齐情况较差时,可能导致FastAlign模型所生成的对齐信息的对齐情况也较差。

技术实现思路

[0007]鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种语句的翻译方法、装置、电子设备和存储介质,包括:
[0008]一种语句的翻译方法,所述方法包括:
[0009]接收待翻译的语句;
[0010]将所述待翻译的语句输入预设的第一模型中;所述第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;所述预设的平行语料中包括对齐信息,所述对齐信息由第二模型确定的,所述第二模型为一跨语言模型;
[0011]获取所述第一模型输出的针对所述待翻译的语句的目标语句。
[0012]可选地,所述方法还包括:
[0013]获取平行语料,并将所述平行语料输入所述第二模型中;
[0014]获取所述第二模型输出的对齐信息,并将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料;
[0015]根据所述预设的平行语料,对所述第一模型进行训练。
[0016]可选地,所述平行语料包括第一语种的第一语句和第二语种的第二语句,所述将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料。包括:
[0017]将所述对齐信息添加至所述第一语句中;
[0018]根据添加了所述对齐信息的第一语句和所述第二语句,生成所述预设的平行语料。
[0019]可选地,所述根据所述预设的平行语料,对所述第一模型进行训练,包括:
[0020]将添加了所述对齐信息的第一语句作为训练输入数据,以及将所述第二语句作为训练输出数据;
[0021]根据所述训练输入数据和所述训练输出数据,对所述第一模型进行训练。
[0022]可选地,所述对齐信息包括所述平行语料中,相似度超过预设值的至少一组词对。
[0023]可选地,所述方法还包括:
[0024]从预设词库中,确定与所述待翻译的语句中的词匹配的目标词;
[0025]所述将所述待翻译的语句输入预设的第一模型中,包括:
[0026]将所述目标词和所述待翻译的语句输入所述第一模型中。
[0027]本专利技术实施例还提供了一种语句的翻译装置,所述装置包括:
[0028]接收模块,用于接收待翻译的语句;
[0029]第一输入模块,用于将所述待翻译的语句输入预设的第一模型中;所述第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;所述预设的平行语料中包括对齐信息,所述对齐信息由第二模型确定的,所述第二模型为一跨语言模型;
[0030]第一获取模块,用于获取所述第一模型输出的针对所述待翻译的语句的目标语句。
[0031]可选地,所述装置还包括:
[0032]第二输入模块,用于获取平行语料,并将所述平行语料输入所述第二模型中;
[0033]第二获取模块,用于获取所述第二模型输出的对齐信息,并将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料;
[0034]训练模块,用于根据所述预设的平行语料,对所述第一模型进行训练。
[0035]可选地,所述平行语料包括第一语种的第一语句和第二语种的第二语句,所述第二获取模块,用于将所述对齐信息添加至所述第一语句中;根据添加了所述对齐信息的第一语句和所述第二语句,生成所述预设的平行语料。
[0036]可选地,所述训练模块,用于将添加了所述对齐信息的第一语句作为训练输入数据,以及将所述第二语句作为训练输出数据;根据所述训练输入数据和所述训练输出数据,对所述第一模型进行训练。
[0037]可选地,所述对齐信息包括所述平行语料中,相似度超过预设值的至少一组词对。
[0038]可选地,所述装置还包括:
[0039]匹配模块,用于从预设词库中,确定与所述待翻译的语句中的词匹配的目标词;
[0040]所述第一输入模块,用于将所述目标词和所述待翻译的语句输入所述第一模型中。
[0041]本专利技术实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述语句的翻译方法。
[0042]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存
储计算机程序,所述计算机程序被处理器执行时实现如上所述语句的翻译方法。
[0043]本专利技术实施例具有以下优点:
[0044]本专利技术实施例中,在接收到待翻译的语句后,可以将待翻译的语句输入预设的第一模型中进行预测,并获取第一模型输出的针对待翻译的语句的目标语句。其中,第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;预设的平行语料中的对齐信息是由第二模型确定的,第二模型为一跨语言模型。通过本专利技术实施例,实现了基于跨语言模型来对齐训练专有词翻译模型时使用的平行语料中的词汇;相对于FastAlign模型来说,跨语言模型并不依赖于平行语料,从而降低了训练专有词翻译模型的投入成本。且相对于FastAlign模型来说,跨语言模型是直接对平行语料中的词进行识别和配对;即直接计算两个词之间的相似度,并将相似度超过阈值的词作为对齐信息。跨语言模型不依赖于平行语料的对齐情况,从而保证了所生成的对齐信息的准确性。
附图说明
[0045]为了更清楚地说明本专利技术的技术方案,下面将对本专利技术的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
...

【技术保护点】

【技术特征摘要】
1.一种语句的翻译方法,其特征在于,所述方法包括:接收待翻译的语句;将所述待翻译的语句输入预设的第一模型中;所述第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;所述预设的平行语料中包括对齐信息,所述对齐信息由第二模型确定的,所述第二模型为一跨语言模型;获取所述第一模型输出的针对所述待翻译的语句的目标语句。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取平行语料,并将所述平行语料输入所述第二模型中;获取所述第二模型输出的对齐信息,并将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料;根据所述预设的平行语料,对所述第一模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述平行语料包括第一语种的第一语句和第二语种的第二语句,所述将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料。包括:将所述对齐信息添加至所述第一语句中;根据添加了所述对齐信息的第一语句和所述第二语句,生成所述预设的平行语料。4.根据权利要求3所述的方法,其特征在于,所述根据所述预设的平行语料,对所述第一模型进行训练,包括:将添加了所述对齐信息的第一语句作为训练输入数据,以及将所述第二语句作为训练输出数据;根据所述训练输入数据和所述训练输出数据,对所述第一模型进行训练。5.根据权利要求2所述的方法,其特征在于,所述对齐信息包括所述平行语料中,相似度超过预设值的至少一组词对。6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:关玉洋邢启洲李健陈明武卫东
申请(专利权)人:无锡捷通数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1