增强词汇一致性的神经机器翻译方法、设备和存储介质技术

技术编号:33374433 阅读:11 留言:0更新日期:2022-05-11 22:41
本公开提供一种增强词汇一致性的神经机器翻译方法,包括:通过训练获得标准的句子级Transformer翻译模型,获得初始化“目标端

【技术实现步骤摘要】
增强词汇一致性的神经机器翻译方法、设备和存储介质


[0001]本公开涉及语言处理
,本公开尤其涉及一种增强词汇一致性的神经机器翻译方法、设备和存储介质。

技术介绍

[0002]机器翻译(machine translation,MT)是指借助计算机将一种自然语言(通常称为源语言)翻译为另一种自然语言(通常称为目标语言)的过程,它是语言学、数学和计算机科学等多学科交叉的一项应用技术。
[0003]尽管神经机器翻译的研究已经取得巨大进展,但常规的神经机器翻译系统的建模与训练通常基于较强的独立性假设,即以句子为翻译单位。因此,当输入一篇文档时,系统只能独立地进行逐句翻译而无法考虑篇章中句子之间的上下文关系。一篇流畅的自然语言文档(或称篇章)并非一组孤立句子的简单堆砌,而是有组织的、结构化的语言单位,其句子之间由连贯的语义关系所串联。即使神经机器翻译的译文在句子层面上可能完全正确,一旦放入篇章语境内,也依然可能出现句际衔接的不流畅或严重的翻译错误。

技术实现思路

[0004]为了解决上述技术问题中的至少一个,本公开提供了一种增强词汇一致性的神经机器翻译方法、设备和存储介质。
[0005]根据本公开的一个方面,提供一种增强词汇一致性的神经机器翻译方法,包括:通过训练获得标准的句子级Transformer翻译模型,获得初始化“目标端

源端”注意力权重;对于输入Transformer翻译模型的篇章,抽取语义上下文向量和一致性上下文向量;利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布;利用一致性上下文向量和语义上下文向量,通过线性分类器评估源端重复单词需要被翻译一致的置信度;在Transformer翻译模型解码时刻借助注意力权重计算当前解码时刻最终的词表预测概率分布。
[0006]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,通过训练集和开发集进行训练获得标准的句子级Transformer翻译模型。
[0007]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,所述Transformer翻译模型用6层编码器和解码器,8头的注意力机制,隐状态维度3d=512,前馈层的维度大小为2048。
[0008]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,所述训练集和开发集利用新闻评论、TDE演讲、电影字幕三个领域的翻译数据进行。
[0009]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,所述利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布中,第n组重复单词的一致性概率分布通过该组单词的全局一致性上下u
n
生成:
[0010][0011]其中,W和b是需要学习的模型参数;W1是一个线性变换矩阵,
[0012]d为隐向量维度。
[0013]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,所述通过线性分类器评估源端重复单词需要被翻译一致的置信度中,对于第i个源语言句子中的任意单词x
i,j
,计算过程如下:
[0014][0015]其中为待学习的网络参数;上式中,如果x
i,j
属于第<i,j>组重复的单词,则利用一个两层线性网络计算翻译一致的置信度,网络的输入包括编码状态向量h
i,j
,对应的一致性上下文向量u
<i,j>
,和所在句子的语义上下文向量v
i
;如果x
i,j
是一个非重复单词,则其翻译一致的置信度为0。
[0016]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,在Transformer翻译模型解码时刻借助注意力权重计算当前解码时刻最终的词表预测概率分布中,在第i个句子的解码时刻t,一致性约束的词表预测概率分布的计算过程如下:
[0017][0018]其中,为第i个句子的解码时刻t,Transformer翻译模型预测的词表概率分布;a
i,t,j
为目标端单词y
i,t
与源端句子X
i
={x
i,1


,x
i,J
}中单词的注意力权重向量A
i,t
={a
i,t,1


,a
i,t,J
}中的元素。
[0019]根据本公开的至少一个实施方式的增强词汇一致性的神经机器翻译方法,通过训练获得标准的句子级Transformer翻译模型;在Transformer翻译模型中加入全局上下文抽取模块以及解码端增强模块;所述全局上下文抽取模块用于抽取输入篇章的语义上下文向量和一致性上下文向量,所述解码端增强模块利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布,利用一致性上下文向量和语义上下文向量,通过线性分类器评估源端重复单词需要被翻译一致的置信度;在Transformer翻译模型解码时刻借助注意力权重计算当前解码时刻最终的词表预测概率分布;对加入全局上下文抽取模块以及解码端增强模块的Transformer翻译模型进行继续训练优化模型参数。
[0020]根据本公开的另外一个方面,提供一种电子设备,包括:
[0021]存储器,所述存储器存储执行指令;
[0022]处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如上述任一项所述的增强词汇一致性的神经机器翻译方法。
[0023]根据本公开的另外一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述任一项所述的增强词汇一致性
的神经机器翻译方法。
附图说明
[0024]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0025]图1是本公开的一个实施方式的增强词汇一致性的神经机器翻译方法的流程示意图。
[0026]图2是本公开的一个实施方式的解码端增强模块的示意图。
[0027]图3是本公开的一个实施方式的篇章级神经机器翻译系统的结构示意图。
[0028]图4是本公开的一个实施方式的生成增强词汇一致性的神经机器翻译模型的方法的流程示意图。
[0029]图5是本公开一个实施方式的生成增强词汇一致性的神经机器翻译模型的装置的结构示意图。
[0030]附图标记
[0031]1001 Transformer翻译模型获取模块
[0032]1002 Transformer翻译模型扩展模块
[0033]1003 词表预测概率分布确定模块
[0034]1004 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强词汇一致性的神经机器翻译方法,包括:通过训练获得标准的句子级Transformer翻译模型,获得初始化“目标端

源端”注意力权重;对于输入Transformer翻译模型的篇章,抽取语义上下文向量和一致性上下文向量;利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布;利用一致性上下文向量和语义上下文向量,通过线性分类器评估源端重复单词需要被翻译一致的置信度;在Transformer翻译模型解码时刻借助注意力权重计算当前解码时刻最终的词表预测概率分布。2.根据权利要求1所述的增强词汇一致性的神经机器翻译方法,其特征在于:通过训练集和开发集进行训练获得标准的句子级Transformer翻译模型。3.根据权利要求1所述的增强词汇一致性的神经机器翻译方法,其特征在于:所述Transformer翻译模型用6层编码器和解码器,8头的注意力机制,隐状态维度3d=512,前馈层的维度大小为2048。4.根据权利要求1所述的增强词汇一致性的神经机器翻译方法,其特征在于:所述训练集和开发集利用新闻评论、TDE演讲、电影字幕三个领域的翻译数据进行。5.根据权利要求1所述的增强词汇一致性的神经机器翻译方法,其特征在于,所述利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布中,第n组重复单词的一致性概率分布通过该组单词的全局一致性上下u
n
生成:其中,W和b是需要学习的模型参数;W1是一个线性变换矩阵,d为隐向量维度。6.根据权利要求1所述的增强词汇一致性的神经机器翻译方法,其特征在于,所述通过线性分类器评估源端重复单词需要被翻译一致的置信度中,对于第i个源语言句子中的任意单词x
i,j
,计算过程如下:其中和为待学习的网络参数;上式中,如果x
i,j
属于第<i,j>组重复的单词,则利用一个两层线性网络计算翻译一致的置信度,网络的输入包括编码状态向量h
i,j
,对应的一致性上下文向量u
<i,j>
,和所在句子的语义上下文向量v
i
;...

【专利技术属性】
技术研发人员:周玉亢晓勉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1