文本翻译模型的训练方法及装置制造方法及图纸

技术编号:22755141 阅读:17 留言:0更新日期:2019-12-07 04:00
本发明专利技术实施例提供一种文本翻译模型的训练方法及装置,其中方法包括:获取第一训练文本集,第一训练文本集包括第一类语料数据以及第二类语料数据,利用第一类语料数据训练第一翻译模型,在第一翻译模型符合停止训练的条件后,利用第二类语料数据训练第二翻译模型;其中,第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练第一翻译模型时输入的第一类语料数据的数量;在第二翻译模型符合停止训练的条件后,判断是否继续训练第一翻译模型,若确定不再继续训练第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。本发明专利技术实施例训练得到的翻译结果更加精准并且翻译风格更加明确。

Training method and device of text translation model

The embodiment of the invention provides a training method and device for the text translation model, wherein the method includes: obtaining the first training text set, the first training text set including the first type of corpus data and the second type of corpus data, training the first translation model with the first type of corpus data, and training the second type of corpus data after the first translation model meets the conditions for stopping training Two translation models: the first translation model and the second translation model share part of the model parameters, and the number of the second type of corpus data input when training the second translation model is less than the number of the first type of corpus data input when training the first translation model; after the second translation model meets the conditions for stopping training, judge whether to continue training the first translation model, if not sure If we continue to train the first translation model, we will use the trained first translation model as the text translation model. The translation result of the embodiment of the invention is more accurate and the translation style is more clear.

【技术实现步骤摘要】
文本翻译模型的训练方法及装置
本专利技术涉及文本翻译
,更具体地,涉及文本翻译模型的训练方法及装置。
技术介绍
在后编辑模式下,辅助翻译工具调用机器翻译引擎结果给出一个翻译初稿,再有专业的翻译人员在此基础上进行审校和编辑,产生高质量的译文结果。当前,虽然基于深度学习的神经网络机器翻译算法的表现令人振奋,但其翻译结果缺乏个性化。其输出的结果往往千篇一律且存在着许多重复。因此,如果在机器翻译引擎中加入个性化的信息,则可以更好地为译员提供更加个性化的辅助翻译,并以此来提升译员的翻译工作效率。对于如何训练表现优异的译员个性化机器翻译引擎的算法,一直都是一个非常有挑战的研究课题。当前的主要方法主要是首先训练一个通用的翻译模型,再利用译员所翻译数据对通用的翻译模型进一步微调。但现有方法的训练结果并不尽如人意。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译模型的训练方法及装置。第一个方面,本专利技术实施例提供一种文本翻译模型的训练方法,包括:获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。优选地,所述获取第一训练文本集,之前还包括:获取第三类语料数据,所述第三类语料数据为第一语言的待翻译训练文本和对应的由非特定译员后编辑的第二语言的译文;相应地,所述利用所述第一类语料数据训练第一翻译模型,之前还包括:利用所述第三类语料数据对所述第一翻译模型进行训练。优选地,所述利用所述第一类语料数据训练第一翻译模型,具体为:将所述第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,对所述第一翻译模型进行训练。优选地,所述利用所述第二类语料数据训练第二翻译模型,具体为:将所述第二类语料数据中的机器翻译的第一语言的译文作为样本,将所述对应的由所述特定译员后编辑的第一语言的译文作为样本标签,对所述第二翻译模型进行训练。优选地,所述判断是否继续训练所述第一翻译模型,之后还包括:若确定继续训练所述第一翻译模型,则继续根据所述第一类语料数据训练所述第一翻译模型,直至确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。优选地,所述第一翻译模型和所述第二翻译模型共享一个编码器,所述第一翻译模型和第二翻译模型还各自包括一个解码器。第二个方面,本专利技术实施例提供一种文本翻译方法,包括:获得第一语言的待翻译文本;根据上述文本翻译模型的训练方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。第三个方面,本专利技术实施例提供一种文本翻译模型的训练装置,包括:训练集获取模块,用于获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;训练模块,用于利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;判断模块,用于在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。第四个方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第五个方面,本专利技术实施例提供一种文本翻译设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所提供的方法的步骤。第六个方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。本专利技术实施例提供的文本翻译模型的训练方法及装置,通过收集第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文,以及机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文,即收集特定译员的第一语言至第二语言的翻译数据和从第二语言至第一语言的翻译数据,以特定译员的第一语言至第二语言的翻译数据训练第一翻译模型,以从第二语言至第一语言的翻译数据训练第二翻译模型,并且两个翻译模型共享一部分模型参数,使得共享的模型参数能够接受更多的数据训练,并且训练两个翻译模型时输入样本数量存在差异,第一翻译模型输入的样本数量要多余第二翻译模型输入的样本数量,这样能够取得更好的模型泛化效果,提高模型的泛化能力,最终使得训练得到的翻译结果更加精准并且翻译风格更加明确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的文本翻译模型的训练方法的流程示意图;图2为本专利技术实施例的第一翻译模型和第二翻译模型的结构示意图;图3为本专利技术实施例提供的文本翻译方法的流程示意图;图4为本专利技术实施例提供的文本翻译模型的训练装置的结构示意图;图5为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在翻译领域,待翻译训练文本通常会通过常用的机器翻译引擎(例如Google翻译)进行翻译,这一步的结本文档来自技高网...

【技术保护点】
1.一种文本翻译模型的训练方法,其特征在于,包括:/n获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;/n利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;/n在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。/n

【技术特征摘要】
1.一种文本翻译模型的训练方法,其特征在于,包括:
获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。


2.根据权利要求1所述的文本翻译模型的训练方法,所述获取第一训练文本集,之前还包括:
获取第三类语料数据,所述第三类语料数据为第一语言的待翻译训练文本和对应的由非特定译员后编辑的第二语言的译文;
相应地,所述利用所述第一类语料数据训练第一翻译模型,之前还包括:
利用所述第三类语料数据对所述第一翻译模型进行训练。


3.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述利用所述第一类语料数据训练第一翻译模型,具体为:
将所述第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,对所述第一翻译模型进行训练。


4.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述利用所述第二类语料数据训练第二翻译模型,具体为:
将所述第二类语料数据中的机器翻译的第一语言的译文作为样本,将所述对应的由所述特定译员后编辑的第一语言的译文作为样本标签,对所述第二翻译模型进行训练。


5.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述判断是否继续训练所述第...

【专利技术属性】
技术研发人员:张睦
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1