【技术实现步骤摘要】
机器翻译模型的训练方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及自然语言处理
,具体涉及一种机器翻译模型的训练方法、装置、电子设备及存储介质。
技术介绍
在自然语言处理(NaturalLanguageProcessing;NLP)中,现有的机器翻译模型可以通用于所有领域,实现对所有领域的语料进行翻译。因此,这种机器翻译模型可以称之为通用领域的机器翻译模型。实际应用中,通用领域的机器翻译模型在训练时,采集各个领域的双语训练样本进行训练。且采集的各个领域的双语训练样本具有通用性,通常为各个领域都能够识别的训练样本,以便于适用于各个领域。但是,利用训练好的机器翻译模型翻译某个目标领域的语料时,可能该通用领域的机器翻译模型在训练时,未学习过该目标领域的特殊语料,导致无法识别该目标领域的语料,从而无法进行准确翻译。为了克服该技术问题,现有技术采用有监督的训练方法,收集目标领域的人工标注的双语训练样本,然后在通用领域的机器翻译模型上进行微调训练,得到目标领域的机器翻译模型。但是,现有的目标领域的 ...
【技术保护点】
1.一种目标领域的机器翻译模型的训练方法,其中,所述方法包括:/n从平行语料库中选择翻译质量满足预设要求、且具备通用领域特征和/或目标领域特征的一组样本,构成第一训练样本集;/n从所述平行语料库中选择翻译质量满足预设要求、不具备通用领域特征和目标领域特征的一组样本,构成第二训练样本集;/n分别采用所述第一训练样本集和所述第二训练样本集,依次训练目标领域的机器翻译模型的编码器和在所述编码器的各编码层配置的判别器、以及所述目标领域的机器翻译模型的编码器和解码器;所述判别器用于识别训练时输入的样本所属的领域。/n
【技术特征摘要】
1.一种目标领域的机器翻译模型的训练方法,其中,所述方法包括:
从平行语料库中选择翻译质量满足预设要求、且具备通用领域特征和/或目标领域特征的一组样本,构成第一训练样本集;
从所述平行语料库中选择翻译质量满足预设要求、不具备通用领域特征和目标领域特征的一组样本,构成第二训练样本集;
分别采用所述第一训练样本集和所述第二训练样本集,依次训练目标领域的机器翻译模型的编码器和在所述编码器的各编码层配置的判别器、以及所述目标领域的机器翻译模型的编码器和解码器;所述判别器用于识别训练时输入的样本所属的领域。
2.根据权利要求1所述的方法,其中,从平行语料库中选择翻译质量满足预设要求、具备通用领域特征和/或目标领域特征的一组样本,构成第一训练样本集,包括:
采用所述判别器识别所述平行语料库中的各所述样本在通用领域和目标领域之间属于所述通用领域或者目标领域的概率;
从所述平行语料库中选择概率小于第一概率阈值和/或概率大于第二概率阈值、同时翻译概率大于预设概率阈值的一组样本,构成所述第一训练样本集;其中所述第二概率阈值大于所述第二概率阈值。
3.根据权利要求2所述的方法,其中,从所述平行语料库中选择翻译质量满足预设要求、不具备通用领域特征和目标领域特征的一组样本,构成第二训练样本集,包括:
从所述平行语料库中选择概率大于或者等于所述第一概率阈值且小于或者等于所述第二概率阈值、同时翻译概率大于预设概率阈值的一组样本,构成所述第二训练样本集。
4.根据权利要求2所述的方法,其中,采用所述判别器识别所述平行语料库中的各所述样本在通用领域和目标领域之间属于所述通用领域或者目标领域的概率,包括:
采用所述目标领域的机器翻译模型的编码器的最顶层的编码层配置的所述判别器,识别所述平行语料库中的各所述样本属于所述通用领域或者目标领域的概率。
5.根据权利要求1所述的方法,其中,分别采用所述第一训练样本集和所述第二训练样本集,依次训练目标领域的机器翻译模型的编码器和在所述编码器的各编码层配置的判别器、以及所述目标领域的机器翻译模型的编码器和解码器,包括:
将所述目标领域的机器翻译模型的解码器固定,采用所述第一训练样本集训练所述目标领域的机器翻译模型的编码器和在所述编码器的各编码层配置的所述判别器;
将所述编码器的各编码层配置的所述判别器固定,采用所述第二训练样本集训练所述目标领域的机器翻译模型的编码器和解码器。
6.根据权利要求1-5任一所述的方法,其中,分别采用所述第一训练样本集和所述第二训练样本集,依次训练目标领域的机器翻译模型的编码器和在所述编码器的各编码层配置的判别器、以及所述目标领域的机器翻译模型的编码器和解码器之前,所述方法包括:
获取基于深度学习技术预先训练的通用领域的机器翻译模型,作为所述目标领域的机器翻译模型。
<...
【专利技术属性】
技术研发人员:张睿卿,张传强,刘继强,何中军,李芝,吴华,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。