一种基于动态配置解码的神经机器翻译方法技术

技术编号：21454171 阅读：38 留言：0更新日期：2019-06-26 04:51

本发明专利技术的一种基于动态配置解码的神经机器翻译方法，在Transformer模型的基础上增加基于卷积神经网络的决策模型，把编码获得的编码信息作为输入送入决策模型，决策模型对编码信息进行卷积、池化和归一化处理，输出相应的解码配置；根据解码配置用已训练好的解码器进行解码，对选取的解码配置进行打分；根据打分结果采用增强学习的方法来改善决策模型，获得训练好的决策模型；采用训练好的改进的自注意力机制的模型进行翻译，输出准确率较高的翻译译文。本发明专利技术使用的决策模型小，训练代价低，其通过在已经训练好的机器翻译模型上以端到端的方式训练得到，而无需重新训练整个机器翻译模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态配置解码的神经机器翻译方法
本专利技术属于机器翻译
，涉及一种基于动态配置解码的神经机器翻译方法。
技术介绍
神经机器翻译技术目前采用基于编码器-解码器框架的神经网络来进行建模。首先，输入的源语句使用网络的编码器来得到一个固定维度的向量，然后网络的解码器使用这个向量逐词地生成对应的翻译结果。这种方法已经在许多不同语种的互译中达到了最佳翻译性能。在神经网络的解码器生成翻译结果的时候，通常有许多参数来控制解码器的行为。比如解码器会产生多个可能的翻译结果以及相应的分数。一般我们会挑选其中得分最高的翻译结果，但是很多情况下网络性能不够好，我们需要利用长度比这个参数来对这些得分进行一些调整，以防止太短或者太长的翻译结果被挑选到。一个使用长度比进行得分调整的示例如下：正确答案：她有许多漂亮的衣服翻译结果1：她有许多漂亮的衣服结果1得分：-0.1-0.2-0.15-0.13-0.1翻译结果2：有许多衣服结果2得分：-0.12-0.15-0.1对于翻译结果1来说，它的总得分是(-0.1+-0.2+-0.15+-0.13+-0.1)/5＝-0.68/5＝-0.136，其中5是翻译结果1的长度，而翻译结果2的总得分是(-0.12+-0.15+-0.1)/3＝-0.37/3＝-0.123。因为翻译结果2的得分比翻译结果1高，解码器会挑选翻译结果2作为最终的输出。显然，翻译结果1更接近正确答案，而翻译结果2相比起来太短了。长度比这个参数则在总得分的基础上把翻译结果的长度考虑进去。在长度比等于1.5的情况下，翻译结果1的得分现在是-0.68/51.5＝-0.06，...

【技术保护点】
1.一种基于动态配置解码的神经机器翻译方法，其特征在于，包括如下步骤：步骤1：在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型，构成改进的自注意力机制模型，所述决策模型基于卷积神经网络建立；步骤2：输入双语句子级平行数据，分别对源语和目标语进行分词处理，获得分词后的双语平行句对，对改进的自注意力机制模型的编码器和解码器进行训练；步骤3：用训练好的编码器对分词后的双语平行句对的源语句子按时序进行编码，获取隐藏层上每个时序的状态，即每个时序下不同层的编码信息；步骤4：把获得的编码信息作为输入送入决策模型，决策模型对编码信息进行卷积、池化和归一化处理，输出相应的解码配置；步骤5：根据决策模型输出的解码配置使用已经训练好的解码器进行解码，并对选取的解码配置进行打分；步骤6：根据评价标准给出的分数，采用增强学习的方法来改善决策模型，获得训练好的决策模型；步骤7：向改进的自注意力机制的模型的编码器输入源语句，将获得的编码信息送入决策模型，解码器根据决策模型输出的解码配置进行翻译。

【技术特征摘要】
1.一种基于动态配置解码的神经机器翻译方法，其特征在于，包括如下步骤：步骤1：在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型，构成改进的自注意力机制模型，所述决策模型基于卷积神经网络建立；步骤2：输入双语句子级平行数据，分别对源语和目标语进行分词处理，获得分词后的双语平行句对，对改进的自注意力机制模型的编码器和解码器进行训练；步骤3：用训练好的编码器对分词后的双语平行句对的源语句子按时序进行编码，获取隐藏层上每个时序的状态，即每个时序下不同层的编码信息；步骤4：把获得的编码信息作为输入送入决策模型，决策模型对编码信息进行卷积、池化和归一化处理，输出相应的解码配置；步骤5：根据决策模型输出的解码配置使用已经训练好的解码器进行解码，并对选取的解码配置进行打分；步骤6：根据评价标准给出的分数，采用增强学习的方法来改善决策模型，获得训练好的决策模型；步骤7：向改进的自注意力机制的模型的编码器输入源语句，将获得的编码信息送入决策模型，解码器根据决策模型输出的解码配置进行翻译。2.如权利要求1所述的基于动态配置解码的神经机器翻译方法，其特征在于，步骤2中输入的双语句子级平行数据为双语互译的句对集合，每个句对由源语句子和目标语句子组成。3.如权利要求1所述的基于动态配置解码的神经机器翻译方法，其特征在于，步骤2中采用极大似然方法对改进的自注意力机制模型的编码器和解码器进行训练。4.如权利要求1所述的基于动态配置解码的神经机器翻译方法，其特征在于，所述步骤3具体为：...

【专利技术属性】
技术研发人员：王强，李炎洋，肖桐，朱靖波，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人