神经机器翻译模型的生成方法、翻译方法及装置制造方法及图纸

技术编号:39177833 阅读:8 留言:0更新日期:2023-10-27 08:25
本公开关于一种神经机器翻译模型的生成方法、翻译方法及装置,属于机器翻译技术领域。其中,该方法包括:获取待翻译的样本语句和样本语句的翻译结果语句,获取样本语句的字符切分序列和子词切分序列,根据字符切分序列、子词切分序列和翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型。因此,本公开根据样本语句的字符切分序列、子词切分序列和翻译结果语句对待训练的神经机器翻译模型进行训练,生成神经机器翻译模型,提高了神经机器翻译模型翻译的质量。提高了神经机器翻译模型翻译的质量。提高了神经机器翻译模型翻译的质量。

【技术实现步骤摘要】
神经机器翻译模型的生成方法、翻译方法及装置


[0001]本公开涉及机器翻译
,尤其涉及一种神经机器翻译模型的生成方法、翻译方法及装置。

技术介绍

[0002]目前,主流的神经机器翻译模型普遍采用子词作为文本分词的粒度。然而,对于中文作为样本语句的机器翻译模型,在子词切分之前通常先进行中文分词,中文分词可能产生错误而引起模型翻译结果不正确,模型翻译质量较差。

技术实现思路

[0003]本公开提供一种神经机器翻译模型的生成方法、翻译方法、装置、终端设备、电子设备及存储介质,以至少解决相关技术中神经机器翻译模型翻译质量较差的问题。
[0004]本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种神经机器翻译模型的生成方法,包括:获取待翻译的样本语句和所述样本语句的翻译结果语句;获取所述样本语句的字符切分序列和子词切分序列;根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型。
[0006]在本公开的一个实施例中,所述根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型,包括:根据所述字符切分序列、所述子词切分序列和所述翻译结果语句,以最小化损失函数L为优化目标,对所述待训练的神经机器翻译模型进行训练,以生成所述神经机器翻译模型;其中,所述损失函数L为负对数似然损失函数L
nll
和散度损失函数L
KL
和值。
[0007]在本公开的一个实施例中,所述生成方法,还包括:计算所述字符切分序列的第一预测翻译结果语句为所述翻译结果语句的第一概率分布;计算所述子词切分序列的第二预测翻译结果语句为所述翻译结果语句的第二概率分布;计算所述第二概率分布拟合所述第一概率分布时的第一KL散度;计算所述第一概率分布拟合所述第二概率分布时的第二KL散度;根据所述第一KL散度和所述第二KL散度计算所述散度损失函数LKL。
[0008]在本公开的一个实施例中,所述根据所述第一KL散度和所述第二KL散度计算所述散度损失函数L
KL
,包括:所述散度损失函数L
KL
通过以下公式计算得到:
[0009][0010]其中,所述L
KL1
为所述第一KL散度,所述L
KL2
为所述第二KL散度。
[0011]根据本公开实施例的第二方面,提供一种翻译方法,包括:获取待翻译的语句;获取所述语句的字符切分序列;根据所述字符切分序列和神经机器翻译模型,生成所述语句的翻译结果语句,其中,所述神经机器翻译模型为根据本公开实施例第一方面所述的神经
机器翻译模型的生成方法生成的。
[0012]根据本公开实施例的第三方面,提供一种神经机器翻译模型的生成装置,包括:第一获取模块,被配置为执行获取待翻译的样本语句和所述样本语句的翻译结果语句;第二获取模块,被配置为执行获取所述样本语句的字符切分序列和子词切分序列;训练模块,被配置为执行根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型。
[0013]在本公开的一个实施例中,所述训练模块,进一步被配置为执行:根据所述字符切分序列、所述子词切分序列和所述翻译结果语句,以最小化损失函数L为优化目标,对所述待训练的神经机器翻译模型进行训练,以生成所述神经机器翻译模型;其中,所述损失函数L为负对数似然损失函数L
nll
和散度损失函数L
KL
的和值。
[0014]在本公开的一个实施例中,所述训练模块,进一步被配置为执行:计算所述字符切分序列的第一预测翻译结果语句为所述翻译结果语句的第一概率分布;计算所述子词切分序列的第二预测翻译结果语句为所述翻译结果语句的第二概率分布;计算所述第二概率分布拟合所述第一概率分布时的第一KL散度;计算所述第一概率分布拟合所述第二概率分布时的第二KL散度;根据所述第一KL散度和所述第二KL散度计算所述散度损失函数L
KL

[0015]在本公开的一个实施例中,所述训练模块,还被配置为执行:所述散度损失函数L
KL
通过以下公式计算得到:
[0016][0017]其中,所述L
KL1
为所述第一KL散度,所述L
KL2
为所述第二KL散度。
[0018]根据本公开实施例的第四方面,提供一种翻译装置,包括:第三获取模块,被配置为执行获取待翻译的语句;第四获取模块,被配置为执行获取所述语句的字符切分序列;生成模块,被配置为执行根据所述字符切分序列和神经机器翻译模型,生成所述语句的翻译结果语句,其中,所述神经机器翻译模型为根据本公开第三方面实施例所述的神经机器翻译模型的生成装置生成的。
[0019]根据本公开实施例的第五方面,提供一种终端设备,包括:如本公开实施例第三方面所述的神经机器翻译模型的生成装置,或者如本公开实施例第四方面所述的翻译装置。
[0020]根据本公开实施例的第六方面,提供一种电子设备,包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如本公开实施例第一方面所述的方法,或者如本公开实施例第二方面所述的方法。
[0021]根据本公开实施例的第七方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本公开实施例第一方面所述的方法,或者如本公开实施例第二方面所述的方法。
[0022]本公开的实施例提供的技术方案至少带来以下有益效果:本公开根据样本语句的字符切分序列、子词切分序列和翻译结果语句对待训练的神经机器翻译模型进行训练,生成神经机器翻译模型,提高了神经机器翻译模型翻译的质量。
[0023]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0025]图1是根据一示例性实施例示出的一种神经机器翻译模型的生成方法的流程图。
[0026]图2是根据一示例性实施例示出的另一种神经机器翻译模型的生成方法的流程图。
[0027]图3是根据一示例性实施例示出的计算散度损失函数L
KL
的流程图。
[0028]图4是根据一示例性实施例示出的损失函数计算的示意图。
[0029]图5是根据一示例性实施例示出的一种翻译方法的流程图。
[0030]图6是根据一示例性实施例示出的一种神经机器翻译模型的生成装置的框图。
[0031]图7是根据一示例性实施例示出的一种翻译装置的框图。
[0032]图8本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经机器翻译模型的生成方法,其特征在于,包括:获取待翻译的样本语句和所述样本语句的翻译结果语句;获取所述样本语句的字符切分序列和子词切分序列;根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型。2.根据权利要求1所述的生成方法,其特征在于,所述根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以生成神经机器翻译模型,包括:根据所述字符切分序列、所述子词切分序列和所述翻译结果语句,以最小化损失函数L为优化目标,对所述待训练的神经机器翻译模型进行训练,以生成所述神经机器翻译模型;其中,所述损失函数L为负对数似然损失函数L
nll
和散度损失函数L
KL
的和值。3.根据权利要求2所述的生成方法,其特征在于,所述方法还包括:计算所述字符切分序列的第一预测翻译结果语句为所述翻译结果语句的第一概率分布;计算所述子词切分序列的第二预测翻译结果语句为所述翻译结果语句的第二概率分布;计算所述第二概率分布拟合所述第一概率分布时的第一KL散度;计算所述第一概率分布拟合所述第二概率分布时的第二KL散度;根据所述第一KL散度和所述第二KL散度计算所述散度损失函数L
KL
。4.根据权利要求3所述的生成方法,其特征在于,所述根据所述第一KL散度和所述第二KL散度计算所述散度损失函数L
KL
,包括:所述散度损失函数L
KL
通过以下公式计算得到:其中,所述L
KL1
为所述第一KL散度,所述L
KL2
为所述第二KL散度。5.一种翻译方法,其特征在于,包括:获取待翻译的语句;获取所述语句的字符切分序列;根据所述字符切分序列和神经机器翻译模型,生成所述语句的翻译结果语句,其中,所述神经机器翻译模型为根据权利要求1

4中任一项所述的神经机器翻译模型的生成方法生成的。6.一种神经机器翻译模型的生成装置,其特征在于,包括:第一获取模块,被配置为执行获取待翻译的样本语句和所述样本语句的翻译结果语句;第二获取模块,被配置为执行获取所述样本语句的字符切分序列和子词切分序列;训练模块,被配置为执行根据所述字符切分序列、所述子词切分序列和所述翻译结果语句对待训练的神经机器翻译模型进行训练,以...

【专利技术属性】
技术研发人员:穆畅李响
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1