基于噪声信道模型的重排序方法、装置及终端设备制造方法及图纸

技术编号:37959372 阅读:11 留言:0更新日期:2023-06-30 09:34
本发明专利技术适用于机器翻译技术领域,提供了一种基于噪声信道模型的重排序方法、装置及终端设备,所述噪声信道模型包括串联的正向翻译模型、语言模型和反向翻译模型,方法包括:获取待翻译原文、原始译文、正向翻译模型的输出、语言模型的输出和反向翻译模型的输出;对噪声信道模型进行参数搜索,生成引导模型;通过所述引导模型对所述待翻译原文进行预测,生成伪标签译文;使用原始训练样本和伪标签训练样本,对所述引导模型进行蒸馏,获得第一学习模型,根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型。通过本发明专利技术可以在保证翻译效果的同时,提升机器翻译的翻译效率。翻译效率。翻译效率。

【技术实现步骤摘要】
基于噪声信道模型的重排序方法、装置及终端设备


[0001]本专利技术涉及机器翻译
,尤其涉及一种基于噪声信道模型的重排序方法、装置及终端设备。

技术介绍

[0002]在机器翻译的噪声通道模型中,通常使用三个模型构建重排序分数,包括正向翻译模型、反向翻译模型和目标语言的语言模型,其中,目标语言的语言模型可以衡量译文的流畅度,反向翻译模型则可以衡量译文的准确度。但是,如果译文出现错译、漏译、过译等情况,译文通常很难通过反向翻译模型翻译回待翻译原文。因此,使用目标语言的语言模型、反向翻译模型翻译时,还会对译文进行后排序,称为重排序。
[0003]目前常用的重排序方式为基于噪声信道模型的重排序方式,但其中的噪声信道模型,每输出一个最终的译文,需要生成若干个待排序译文,并且每个待排序译文均需要计算一次流畅度和准确度分数,使得其翻译耗时为普通翻译模型的几十倍甚至上百倍,最终降低线上机器翻译服务的翻译效率。此外,这还使得线上从部署一个翻译模型,变成了同时部署普通翻译模型、语言模型、反向翻译模型三个模型,资源消耗极大。

技术实现思路

[0004]本专利技术的主要目的在于提出一种基于噪声信道模型的重排序方法、装置及终端设备,解决目前的重排序方法在使用目标语言的语言模型、反向翻译模型翻译时,翻译效率低,资源消耗大的问题。
[0005]为实现上述目的,本专利技术实施例第一方面提供了一种基于噪声信道模型的重排序方法,所述噪声信道模型包括串联的正向翻译模型、语言模型和反向翻译模型,方法包括:获取待翻译原文、原始译文、正向翻译模型的输出、语言模型的输出和反向翻译模型的输出;对噪声信道模型进行参数搜索,生成引导模型;所述参数搜索包括在最大化所述噪声信道模型的bleu值的基础上,搜索语言模型的权值、反向翻译模型的权值和长度惩罚项的权值;通过所述引导模型对所述待翻译原文进行预测,生成伪标签译文;使用原始训练样本和伪标签训练样本,对所述引导模型进行蒸馏,获得第一学习模型,所述原始训练样本包括待翻译原文和原始译文,所述伪标签训练样本包括待翻译原文和伪标签译文;根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型。
[0006]结合本专利技术第一方面,本专利技术第一实施方式中,使用原始训练样本和伪标签训练样本,对引导模型进行蒸馏,获得第一学习模型,包括:对引导模型进行蒸馏时,在原学习模型中构造权值映射器,将引导模型中的权值
映射到原学习模型中获得第一学习模型。
[0007]结合本专利技术第一方面第一实施方式,本专利技术第二实施方式中,根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型,包括:通过参数映射,将第一学习模型中的参数转移到普通模型中,获得第二学习模型。
[0008]结合本专利技术第一方面第二实施方式,本专利技术第三实施方式中,根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型之后,包括:使用原始训练数据和伪标签数据,对第二学习模型再进行一次普通蒸馏的微调训练。
[0009]结合本专利技术第一方面,本专利技术第四实施方式中,对噪声信道模型进行参数搜索,生成引导模型,包括:通过搜索到的参数对所述噪声信道模型中的正向翻译模型进行参数修正,获得引导模型。
[0010]结合本专利技术第一方面第四实施方式,本专利技术第五实施方式中,参数修正的方式为权值对齐。
[0011]结合本专利技术第一方面,本专利技术第六实施方式中,在最大化所述噪声信道模型的bleu值的基础上,搜索语言模型的权值、反向翻译模型的权值和长度惩罚项的权值,公式为:;其中,L
s
为待翻译原文的长度,L
t
为原始译文的长度,λ1为语言模型的权值,λ2为反向翻译模型的权值,lenpen为长度惩罚项的权值,t为待翻译原文,s为原始译文。
[0012]本专利技术实施例第二方面提供了一种基于噪声信道模型的重排序装置,所述噪声信道模型包括串联的正向翻译模型、语言模型和反向翻译模型,装置包括:训练数据获取模块,用于获取待翻译原文、原始译文、正向翻译模型的输出、语言模型的输出和反向翻译模型的输出;参数搜索模块,用于对噪声信道模型进行参数搜索,生成引导模型;所述参数搜索包括在最大化所述噪声信道模型的bleu值的基础上,搜索语言模型的权值、反向翻译模型的权值和长度惩罚项的权值;伪标签译文获取模块,用于通过所述引导模型对所述待翻译原文进行预测,生成伪标签译文;模型蒸馏模块,用于使用原始训练样本和伪标签训练样本,对所述引导模型进行蒸馏,获得第一学习模型,所述原始训练样本包括待翻译原文和原始译文,所述伪标签训练样本包括待翻译原文和伪标签译文;第二学习模型获取模块,用于根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型。
[0013]本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。
[0014]本专利技术实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储
介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。
[0015]本专利技术提供了一种基于噪声信道模型的重排序方法,通过参数搜索修正原本的噪声信道模型,从而生成引导模型,再通过蒸馏的方式,让与引导模型对应的原学习模型,学习引导模型的输出,获得改进的第一学习模型和第二学习模型,第二学习模型生成与引导模型所输出的伪标签译文类似的译文,然后重排序,重排序后的输出也即最终的译文,也具有引导模型的翻译流畅度和翻译准确度。其中,模型蒸馏的方式,不需要计算多次流畅度和准确度分数,就可使第二学习模型具有引导模型的翻译流畅度和翻译准确度,因此,本专利技术在保证翻译效果的同时,提升了机器翻译的翻译效率。
附图说明
[0016]图1为本专利技术实施例提供的基于噪声信道模型的重排序方法的实现流程示意图;图2为本专利技术实施例提供的噪声信道模型的串联结构示意图;图3为本专利技术实施例提供的基于噪声信道模型的重排序装置的组成结构示意图。
[0017]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0018]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0019]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0020]在本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于噪声信道模型的重排序方法,其特征在于,所述噪声信道模型包括串联的正向翻译模型、语言模型和反向翻译模型,方法包括:获取待翻译原文、原始译文、正向翻译模型的输出、语言模型的输出和反向翻译模型的输出;对噪声信道模型进行参数搜索,生成引导模型;所述参数搜索包括在最大化所述噪声信道模型的bleu值的基础上,搜索语言模型的权值、反向翻译模型的权值和长度惩罚项的权值;通过所述引导模型对所述待翻译原文进行预测,生成伪标签译文;使用原始训练样本和伪标签训练样本,对所述引导模型进行蒸馏,获得第一学习模型,所述原始训练样本包括待翻译原文和原始译文,所述伪标签训练样本包括待翻译原文和伪标签译文;根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型。2.如权利要求1所述的基于噪声信道模型的重排序方法,其特征在于,使用原始训练样本和伪标签训练样本,对引导模型进行蒸馏,获得第一学习模型,包括:对引导模型进行蒸馏时,在原学习模型中构造权值映射器,将引导模型中的权值映射到原学习模型中获得第一学习模型。3.如权利要求2所述的基于噪声信道模型的重排序方法,其特征在于,根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型,包括:通过参数映射,将第一学习模型中的参数转移到普通模型中,获得第二学习模型。4.如权利要求3所述的基于噪声信道模型的重排序方法,其特征在于,根据所述第一学习模型的参数对普通模型进行处理,获得用于重排序的第二学习模型之后,包括:使用原始训练数据和伪标签数据,对第二学习模型再进行一次普通蒸馏的微调训练。5.如权利要求1所述的基于噪声信道模型的重排序方法,其特征在于,对噪声信道模型进行参数搜索,生成引导模型,包括:通过搜索到的参数对所述噪声信道模型中的正向翻译模型进行参数修正,获得引导模型。6.如权利要求5所述的基于噪声信道模型的...

【专利技术属性】
技术研发人员:朱宪超胡刚霍展羽
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1