【技术实现步骤摘要】
神经机器翻译系统、方法、电子设备以及可读存储介质
[0001]本公开属于语言处理
,本公开尤其涉及一种神经机器翻译系统、方法、电子设备以及可读存储介质。
技术介绍
[0002]在篇章级神经机器翻译中,篇章中的上下文信息对于文档级别的翻译任务至关重要,在许多真实应用场景中,翻译系统的输入往往是前后关联的一段话或一篇文档,如法令文件、科技文献、聊天记录等。跨句的上下文信息能够为当前句子的翻译提供合适的篇章语境,以增强当前句子的语义编码和解码表示,并辅助模型纠正一些翻译错误,从而生成更加准确、连贯的篇章译文。
[0003]除词汇的重复等衔接现象外,作为一个有组织的完整语言单位,篇章还具有结构化的特点,可以形式化地表示为由语义关联的基本篇章单元所构成的拓扑结构。然而,目前的篇章级神经机器翻译方法大多只考虑上下文的词汇序列信息,忽视了对篇章结构化信息的利用。因此,在神经机器翻译中,建模篇章理论所表示的结构信息,并有效地将其与神经机器翻译模型融合,能够为翻译提供更为丰富的语言学上下文信息,以达到提升翻译质量的目的。 >
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种神经机器翻译系统,包括:标准Transformer多层编码器和多层解码器;篇章结构解析模块,其设置于编码器的顶层,用于建模篇章的依存结构信息,得到结构信息增强的EDU表示向量;编码端EDU融合模块,将EDU表示向量与编码器输出状态向量进行融合;解码端EDU融合模块,将EDU表示向量与解码器输出状态向量进行融合。2.根据权利要求1所述的神经机器翻译系统,其特征在于:所述篇章结构解析模块将输入的经过Transformer多层编码后的单词状态向量,经过EDU切分和最大池化操作生成一组最初的EDU表示向量,再利用篇章结构感知的多头自注意力机制对依存结构信息进行建模,输出结构信息增强后的EDU表示向量。3.根据权利要求1所述的神经机器翻译系统,其特征在于:所述EDU切分在单词x
i,j
之后进行切分的概率为:s
i,j
=σ(W
s
h
i,j
+b
s
),其中和b
s
为模型参数,σ(
·
)表示sigmoid激活函数;当S
i,j
大于固定阈值时,在x
i
,
j
之后进行EDU切分。4.根据权利要求1所述的神经机器翻译系统,其特征在于:所述最大池化操作生成初始的EDU向量:e
m
=MaxPooling(H
m
),其中H
m
为第m个EDU中所包含的单词编码状态向量;MaxPooling(
·
)为最大池化函数。5.根据权利要求1所述的神经机器翻译系统,其特征在于:所述篇章结构感知的多头注意力机制,在标准多头注意力机制的基础上,增加一个EDU依存头以建模EDU依存结构和关系,其中多头注意力机制的输出DSAMHA的计算如下:DSAMHA(Q,K,V)=[head
DEP
;head1;
…
;head
N
]W
O
,其中,输入Q,K,V均为初始的EDU向量,W
O
为模型参数;普通头{head1,
…
,head
N
}的输出为:其中W
O
,W
Qn
,W
Kn
,W
Vn
为模型参数;ATTN为注意力计算公式,其中d代表K的隐状态向量维度,ATTN函数计算查询向量Q和键向量K的点积并通过softmax归一化后作为注意力权重A,再利用注意力对值向量V进行加权求和得到最终的输出;对于head
DEP
的计算采用双仿射操作:其中其中和U均为模型参数;注意力权重矩阵
ADEP
的维度为M
×
M,矩阵中的第...
【专利技术属性】
技术研发人员:周玉,亢晓勉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。