【技术实现步骤摘要】
基于全方向注意力的翻译方法及其相关设备
[0001]本申请涉及人工智能
,尤其涉及基于全方向注意力的翻译方法及其相关设备。
技术介绍
[0002]机器翻译是一种借助程序将一种自然语言翻译成另一种自然语言的的技术,这项技术经过长期的发展变化,已经从最早的基于规则替换,到基于统计的机器翻译模型,变成现在的普遍基于人工神经网络的局面。
[0003]目前主流的神经网络翻译模型——Transformer模型,通过训练注意力机制来实现机器翻译,但传统的注意力机制使得在训练中损失了大量的信息,尤其随着模型的深度的增加,注意力机制丢失的信息量会显著提升,这导致机器翻译模型总是难以达到完美流畅的翻译效果。例如,在《Attention is all you need》一文中所提出的Transformer模型架构就有6个编码器和6个解码器,深度为12,最终输出结果相比较输入文本,已经丢失了大量信息。
技术实现思路
[0004]本申请实施例的目的在于提出一种基于全方向注意力的翻译方法及其相关设备,提高翻译的准确率。r/>[0005]为本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于全方向注意力的翻译方法,其特征在于,包括下述步骤:接收已标记的训练样本和预设的深度学习翻译模型,所述深度学习翻译模型包括线性层、归一层和至少一个组合层,所述组合层包括全方向层和编码解码层;将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中,获得输出的目标样本特征,并将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中,获得输出的第一序列;判断所述第一个所述全方向层之后是否存在下一个所述组合层,在所述第一个所述全方向层之后存在下一个所述组合层时,将所述第一序列输入至下一个所述组合层中,获得输出的第二序列;直至经过所有所述组合层,将所述第二序列依次经过所述线性层和所述归一层,获得输出的翻译结果;基于所述翻译结果迭代训练所述深度学习翻译模型,获得训练后的深度学习翻译模型;接收待翻译数据,将所述待翻译数据输入至所述训练后的深度学习翻译模型中,获得目标翻译数据。2.根据权利要求1所述的基于全方向注意力的翻译方法,其特征在于,所述全方向层包括全方向注意力层和池化层,所述将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中,获得输出的第一序列的步骤包括:将所述目标样本特征输入至所述全方向注意力层中,获得输出的初始序列;将所述初始序列输入至所述池化层中,获得输出的所述第一序列。3.根据权利要求2所述的基于全方向注意力的翻译方法,其特征在于,所述将所述目标样本特征输入至所述全方向注意力层中,获得输出的初始序列的步骤包括:所述全方向注意力层的特征为:O=Attend(IndexSort(X1,X2,
…
,X
L
)),其中,Attend表示自注意力,IndexSort表示IndexSort函数基于预设的目录对所述目标样本特征中的文本进行排序,O表示所述初始序列,第一个所述编码解码层中所有子层输出的矩阵组成所述目标样本特征,X1,X2,X
L
分别表示第一个所述编码解码层中第一个子层输出的矩阵、第二个子层输出的矩阵和第L个子层输出的矩阵。4.根据权利要求2所述的基于全方向注意力的翻译方法,其特征在于,所述将所述初始序列输入至所述池化层中,获得输出的所述第一序列的步骤包括:所述池化层的特征为:O
′
=maxpool1D(O),其中,maxpool表示最大值池化,O表示所述初始序列,O
′
表示所述第一序列。5.根据权利要求1...
【专利技术属性】
技术研发人员:孔令炜,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。