基于模拟未来时刻的翻译信息的神经机器翻译方法技术

技术编号：19745181 阅读：42 留言：0更新日期：2018-12-12 04:43

本发明专利技术涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法，为获得良好的神经机器翻译而设计。本发明专利技术模拟未来时刻的翻译信息，从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟，本发明专利技术显著提高了神经机器翻译模型NMT的翻译质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于模拟未来时刻的翻译信息的神经机器翻译方法
本专利技术属于机器学习
，具体涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法。
技术介绍
传统的机器翻译方法为统计机器翻译方法(StatisticalMachineTranslation，简称SMT)，从大规模平行语料中统计诸如词对、平行短语对、平行句法结构等的信息，以建立针对翻译过程的统计模型。近年来，随着深度学习的发展，利用神经网络将源语言映射到目标语言的翻译模型，即神经机器翻译模型(NeuralMachineTranslation，简称NMT)，显著提升了机器翻译的质量，超越了传统统计机器翻译方法的性能，成为目前工业界和学术界的主流方法。基准神经机器翻译系统为编码-解码框架，将源语言编码为隐藏向量信息，再把该隐藏向量信息解码为目标语言[Sutskeveretal.,2014；Bahdanauetal.,2015]。编码和解码功能均通过循环神经网络(RecurrentNeuralNetworks,简称RNNs)实现。这两个循环神经网络是通过一个注意力层(AttentionLayer)连接建模的，在翻译目标单词时检测其与源端语句相关的部分，这个过程称之为使用注意力机制(Attention)。神经机器翻译是一种端到端的翻译模型，它在给定源端语句X＝x1,x2,...,x|X|的条件下直接对目标端语句Y＝y1,y2,...,y|Y|的条件概率P(Y|X)进行建模：其中，源端语句X通过编码器编码为隐藏层向量H＝h1,h2,...,h|x|，解码器根据条件概率逐字地预测出目标语句Y。第j个目标端单词的计算...

【技术保护点】
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法，其特征在于，包括：基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练，得到固定模型参数M1；固定模型参数M1，最小化损失lossgold，得到Z’和c’i相关模型参数M2；固定模型参数M1和M2，最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。

【技术特征摘要】
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法，其特征在于，包括：基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练，得到固定模型参数M1；固定模型参数M1，最小化损失lossgold，得到Z’和c’i相关模型参数M2；固定模型参数M1和M2，最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。2.根据权利要求1所述的基于模拟未来时刻的翻译信息的神经机器翻译方法，其特征在于，训练一个多层感知机MLP，模拟BP：pBP＝σ(MLP(concat(si,ci)))losslength＝(pBP-BP)2其中，si是当前时刻，即i时刻的解码器隐藏层向量，ci是当前时刻的上下文向量，concat是将两个向量相连的操作，σ是Sigmoid函数；pBP是模拟的长度惩罚，通过优化损失函数losslength使模拟的长度惩罚pBP接近真实的长度惩罚BP；当前机器翻译结果的长度小于参考答案的长度，其惩罚BP为：其中，c为当前时刻目标端翻译的句长，r为参考答案的句长。3.根据权利要求1所述的基于模拟未来时刻的翻译信息的神经机器翻译方法，其特征在于，训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献，用一个预测的概率分布ppredicate来模拟pgold：ppredicate＝MLP’(concat(si,ci))losscontext＝-(pglod)*log(ppredicate)其中，ppredi...

【专利技术属性】
技术研发人员：段湘煜，汪琪，骆卫华，张民，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人