篇章级翻译方法、翻译模型训练方法及装置制造方法及图纸

技术编号:32346088 阅读:14 留言:0更新日期:2022-02-20 02:01
本发明专利技术公开了一种篇章翻译方法、翻译模型训练方法及装置,应用于机器翻译领域,针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于句子表示对该句待翻译句子进行翻译;根据待翻译篇章中每句待翻译句子的翻译结果,得到待翻译篇章对应的篇章翻译结果。通过本发明专利技术实现了提高篇章级文本翻译的效果。果。果。

【技术实现步骤摘要】
篇章级翻译方法、翻译模型训练方法及装置


[0001]本专利技术涉及神经机器翻译
,尤其涉及一种篇章级翻译方法、翻译模型训练方法及装置。

技术介绍

[0002]最近几年,随着Transformer框架的提出,NMT(Neural machine translation,神经机器翻译)已经取得了跳跃式的发展,翻译质量也有着很大的提高。随着越来越多的企业走向全球化,NMT可能会对翻译行业产生巨大影响。与传统的统计机器翻译不同的,NMT使用基于神经网络的技术来实现更多上下文精确的翻译。
[0003]由于NMT能够一次翻译整个句子,使得NMT的输出可以类似于人工翻译。目前对于篇章级别翻译,通常是以单个句子作为翻译单位,再将每一句话的翻译结果进行拼接,得到最终的篇章翻译结果,由于缺乏上下文依赖关系,句子级别的翻译系统用于进行翻译篇章级文本的效果不佳,依然不能满足人们的需求。

技术实现思路

[0004]本专利技术实施例提供一种篇章级翻译方法、翻译模型训练方法及装置,以解决现有技术中对篇章级文本翻译效果不佳的技术问题。
[0005]第一方面,本专利技术实施例提供一种篇章翻译方法,包括:
[0006]针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;
[0007]根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。
[0008]可选的,通过学习篇章级训练语料中包含上下文语义信息的句子表示,得到所述目标篇章翻译模型,其中,所述篇章级训练语料为篇章级平行语料和/或篇章级单语语料。
[0009]可选的,所述通过学习篇章级训练语料中包含上下文语义信息的句子表示得到所述目标篇章翻译模型,包括:
[0010]针对所述篇章级训练语料为篇章级平行语料,基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示;或者
[0011]针对所述篇章级训练语料为篇章级单语语料,基于所述篇章级单语语料对预训练模型进行预训练,并根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
[0012]可选的,所述基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译
模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,包括:
[0013]利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
[0014]从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
[0015]利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
[0016]可选的,所述神经机器翻译模型与所述上下文预测模型共享同一源端编码器,所述神经机器翻译模型还包含目标端解码器,所述上下文预测模型还包含源端上下文解码器。
[0017]可选的,所述利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,包括对所述神经机器翻译模型和所述上下文预测模型的多次联合迭代训练;其中,任意一次联合迭代训练包括:
[0018]通过所述源端编码器对所述第一篇章级平行语料中第一平行句对的当前源端句子进行编码;
[0019]通过所述目标端解码器和所述源端上下文解码器对所述同一源端编码器的编码结果分别进行解码,以预测出当前源端句子对应的目标端句子和源端上下文句子;
[0020]根据预测出的源端上下文句子、预测出的目标端预测句子以及所述第一平行句对共同确定出联合损失梯度;
[0021]基于所述联合损失梯度更新所述神经机器翻译模型的模型参数和所述上下文预测模型的模型参数。
[0022]可选的,在利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型之前,所述方法还包括:
[0023]利用所述篇章级单语语料对预训练模型进行预训练,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
[0024]基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
[0025]可选的,所述根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,包括:
[0026]基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
[0027]依据所述篇章级单语语料对所述初始化后的目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
[0028]第二方面,本专利技术实施例提供一种翻译模型训练方法,包括:
[0029]基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
[0030]可选的,所述基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译
模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,包括:
[0031]利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
[0032]从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
[0033]利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
[0034]可选的,在利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型之前,还包括:
[0035]利用篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
[0036]基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种篇章翻译方法,其特征在于,包括:针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。2.如权利要求1所述的方法,其特征在于,通过学习篇章级训练语料中包含上下文语义信息的句子表示,得到所述目标篇章翻译模型,其中,所述篇章级训练语料为篇章级平行语料和/或篇章级单语语料。3.如权利要求2所述的方法,其特征在于,所述通过学习篇章级训练语料中包含上下文语义信息的句子表示得到所述目标篇章翻译模型,包括:针对所述篇章级训练语料为篇章级平行语料,基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示;或者针对所述篇章级训练语料为篇章级单语语料,基于所述篇章级单语语料对预训练模型进行预训练,并根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。4.一种翻译模型训练方法,其特征在于,包括:基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。5.一种翻译模型训练方法,其特征在于,包括:基于篇章级单...

【专利技术属性】
技术研发人员:张培张旭陈伟
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1