非自回归神经机器翻译解码方法、装置、设备及存储介质制造方法及图纸

技术编号:33777803 阅读:21 留言:0更新日期:2022-06-12 14:31
本申请公开了一种非自回归神经机器翻译解码方法、装置、设备及存储介质,该方法包括:获取源语言的待翻译文本,以及待翻译文本中待翻译词对应的词向量;对待翻译文本进行预处理,以及对待翻译词对应的词向量进行向量编码,得到关注上下文信息的编码向量;根据待翻译词对应的词向量以及编码向量,通过预先训练好的神经网络模型将待翻译文本翻译成目标语言的目标句子;通过预先训练好的条件随机场模型,建立目标句子中目标词之间的依赖关系,并输出目标句子。本申请通过在解码过程中动态确定目标语言的句子解码长度,而无需预先定义解码长度,可以避免由于预先定义的解码长度有误而导致的重复翻译或遗漏翻译的现象,提升翻译质量和准确率。质量和准确率。质量和准确率。

【技术实现步骤摘要】
非自回归神经机器翻译解码方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种非自回归神经机器翻译解码方法、装置、设备及存储介质。

技术介绍

[0002]目前,神经机器翻译常用的是一种自回归的解码方式,按照句子从左到右依次解码生成目标语言。然而,自回归的这种解码特性导致在解码过程中,不同位置的单词无法并行生成。为克服这一困难,采用了一种非自回归神经机器翻译方法,无需考虑目标端语言生成过程的时序性,在解码过程中能够同时生成所有目标语言词汇,可以极大地提升模型的解码速度。
[0003]在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
[0004]当前的非自回归神经机器翻译方法虽然能够同时生成所有时刻的目标语言词汇而极大地提升解码速度,但是在解码过程中需要提前根据统计模型来确定目标语言文本的长度,而在翻译过程中无法动态确定待翻译的目标语言文本的长度,导致重复翻译或者遗漏翻译的问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]为了解决当前的非自回归神经机器翻译方法在翻译过程中无法动态确定待翻译的目标语言文本的长度,导致重复翻译或者遗漏翻译的技术问题,本申请提供了一种非自回归神经机器翻译解码方法、装置、设备及存储介质。
[0007]在一些实施例中,本申请提供了一种非自回归神经机器翻译解码方法,所述方法包括以下步骤:
[0008]获取源语言的待翻译文本,以及所述待翻译文本中待翻译词对应的词向量;
[0009]对所述待翻译文本进行预处理,以及对所述待翻译词对应的词向量进行向量编码,得到关注上下文信息的编码向量;
[0010]根据所述待翻译词对应的词向量以及所述编码向量,通过预先训练好的神经网络模型将所述待翻译文本翻译成目标语言的目标句子;
[0011]通过预先训练好的条件随机场模型,建立所述目标句子中目标词之间的依赖关系,并输出所述目标句子。
[0012]可选地,所述神经网络模型的训练过程包括:
[0013]对源语言的训练样本数据进行预处理,得到源语言的样本词向量表示;
[0014]将样本词向量表示输入到初始神经网络模型,以使所述初始神经网络模型输出目标语言的预测翻译;
[0015]若所述预测翻译与历史翻译的相似度大于或等于设定的相似度阈值,则所述初始神经网络模型训练成功,得到训练好的神经网络模型;
[0016]若所述预测翻译与历史翻译的相似度小于设定的相似度阈值,则通过调整所述初始神经网络模型中的参数,直至所述初始神经网络模型训练成功。
[0017]可选地,对源语言的训练样本数据进行预处理,得到源语言的样本词向量表示,包括:
[0018]将所述训练样本数据中的样本句子进行亚词切分,得到若干个样本亚词序列;
[0019]利用第一标签将源语言的样本输入序列补齐至预设的亚词序列长度,以及,利用第二标签将目标语言的样本输出序列补齐至预设的亚词序列长度;
[0020]将源语言的样本输入序列进行随机初始化,得到表示所述样本输入序列中每个样本亚词对应的样本词向量的词向量编码。
[0021]可选地,将样本词向量表示输入到初始神经网络模型,以使所述初始神经网络模型输出目标语言的预测翻译,包括:
[0022]将样本词向量表示输入到所述初始神经网络模型的编码器中,对所述样本词向量表示进行向量编码,得到样本输入序列的位置向量编码;
[0023]根据所述位置向量编码和所述词向量编码之和,得到源语言的输入向量编码;
[0024]通过基于自注意力机制的Transformer层,所述输入向量编码经过编码器的编码得到顶层编码;
[0025]将所述顶层编码进行线性变换;
[0026]基于线性变换的结果,通过预先训练好的条件随机场模型来设置每个时刻的输出概率分布,并将最大概率值对应的单词作为对应时刻的生成结果;
[0027]依次解码,并在输出所述第二标签的位置作为句子结尾的位置,得到所述预测翻译。
[0028]可选地,所述输入向量编码经过编码器的编码得到顶层编码由以下公式计算得到:
[0029][0030]V
n
=SelfAttn(E
X
,E
X
,E
X
);
[0031]其中,E
x
表示输入向量编码,V
n
表示基于自注意力机制的Transformer层的输出,表示经过编码器的编码得到的顶层编码表示。
[0032]可选地,基于线性变换的结果,通过预先训练好的条件随机场模型来设置每个时刻的输出概率分布,由以下公式计算得到:
[0033][0034]其中,s表示根据Transformer层预测得到的目标单词y
i
的分数,t表示词之间的传递概率,z(x)表示归一化因子;n表示亚词的个数;x表示输入端的源语言的单词,y表示输出端的目标语言的单词,经过线性变换得到
[0035]最大概率值对应的单词作为时刻i的生成结果,并由以下公式计算得到:
[0036]y=Max(Prob
y/x
);
[0037]依次解码得到的生成结果为:
[0038]y=[y1,...,y
n
];其中,[y1,...,y
j
]表示样本输出序列,[y
j+1
,...,y
n
]表示用于将样本输出序列补齐至预设的亚词序列长度的第二标签;x=[x1,...,x
n
]表示源语言的亚词序列,[x1,...,x
i
]表示样本输入序列,[x
i+1
,...,x
n
]表示用于将样本输入序列补齐至预设的亚词序列长度的第一标签。
[0039]可选地,将所述训练样本数据中的样本句子进行亚词切分,包括:
[0040]通过BPE分词算法将所述训练样本数据中的样本句子进行亚词切分。
[0041]本申请还提供了一种非自回归神经机器翻译解码装置,所述装置包括:
[0042]获取单元,被配置为获取源语言的待翻译文本,以及所述待翻译文本中待翻译词对应的词向量;
[0043]预处理和编码单元,被配置为对所述待翻译文本进行预处理,以及对所述待翻译词对应的词向量进行向量编码,得到关注上下文信息的编码向量;
[0044]翻译单元,被配置为根据所述待翻译词对应的词向量以及所述编码向量,通过预先训练好的神经网络模型将所述待翻译文本翻译成目标语言的目标句子;以及
[0045]输出单元,被配置为通过预先训练好的条件随机场模型,建立所述目标句子中目标词之间的依赖关系,并输出所述目标句子。
[0046]本申请还提供了一种电子设备,所述电子设备包括:至少一个处理器、存储器、至少一个网络接口和用户接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非自回归神经机器翻译解码方法,其特征在于,所述方法包括以下步骤:获取源语言的待翻译文本,以及所述待翻译文本中待翻译词对应的词向量;对所述待翻译文本进行预处理,以及对所述待翻译词对应的词向量进行向量编码,得到关注上下文信息的编码向量;根据所述待翻译词对应的词向量以及所述编码向量,通过预先训练好的神经网络模型将所述待翻译文本翻译成目标语言的目标句子;通过预先训练好的条件随机场模型,建立所述目标句子中目标词之间的依赖关系,并输出所述目标句子。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程包括:对源语言的训练样本数据进行预处理,得到源语言的样本词向量表示;将样本词向量表示输入到初始神经网络模型,以使所述初始神经网络模型输出目标语言的预测翻译;若所述预测翻译与历史翻译的相似度大于或等于设定的相似度阈值,则所述初始神经网络模型训练成功,得到训练好的神经网络模型;若所述预测翻译与历史翻译的相似度小于设定的相似度阈值,则通过调整所述初始神经网络模型中的参数,直至所述初始神经网络模型训练成功。3.根据权利要求2所述的方法,其特征在于,对源语言的训练样本数据进行预处理,得到源语言的样本词向量表示,包括:将所述训练样本数据中的样本句子进行亚词切分,得到若干个样本亚词序列;利用第一标签将源语言的样本输入序列补齐至预设的亚词序列长度,以及,利用第二标签将目标语言的样本输出序列补齐至预设的亚词序列长度;将源语言的样本输入序列进行随机初始化,得到表示所述样本输入序列中每个样本亚词对应的样本词向量的词向量编码。4.根据权利要求3所述的方法,其特征在于,将样本词向量表示输入到初始神经网络模型,以使所述初始神经网络模型输出目标语言的预测翻译,包括:将样本词向量表示输入到所述初始神经网络模型的编码器中,对所述样本词向量表示进行向量编码,得到样本输入序列的位置向量编码;根据所述位置向量编码和所述词向量编码之和,得到源语言的输入向量编码;通过基于自注意力机制的Transformer层,所述输入向量编码经过编码器的编码得到顶层编码;将所述顶层编码进行线性变换;基于线性变换的结果,通过预先训练好的条件随机场模型来设置每个时刻的输出概率分布,并将最大概率值对应的单词作为对应时刻的生成结果;依次解码,并在输出所述第二标签的位置作为句子结尾的位置,得到所述预测翻译。5.根据权利要求4所述的方法,其特征在于,所述输入向量编码经过编码器的编码得到顶层编码由以下公式计算得到:V
n
=SelfAttn(E
X
,E
X
,E
X
);
其中,E
x
表示输入向量编码,V
n
表示...

【专利技术属性】
技术研发人员:王亦宁梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1