融合多语编码信息的神经机器翻译方法技术

技术编号：16587404 阅读：401 留言：0更新日期：2017-11-18 14:59

融合多语编码信息的神经机器翻译方法，本发明专利技术涉及神经机器翻译方法。本发明专利技术的目的是为了解决现有技术翻译准确率低的问题。过程为：一，得到每种语言各自对应的子字符号序列，建立dic_s1，dic_s2和dic_t；二、将词向量输入NMT模型训练，根据初值训练更新词向量，直至NMT模型的bleu值提升1‑3个点；三、得到ctx_s1和ctx_s2；四、得到融合结果；五、得到C；六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1，根据pt+1采样出t+1时刻的目标单词y′t+1，直至解码出句子结束标记，解码翻译结束。本发明专利技术用于机器翻译领域。

Machine Translation neural encoding information fusion method.

Machine Translation neural fusion method multilingual encoding information, the invention relates to a neural Machine Translation method. The aim of the invention is to solve the problem of low accuracy in the existing technology. The process is: one, get a sequence of symbols, each language corresponding to each sub set up dic_s1, dic_s2 and dic_t; two, the word vector input NMT model training, initial training according to the updated word vector, until the NMT Bleu model to enhance the value of 1 3 points; three, ctx_s1 and ctx_s2, four; five, get the fusion result; C; six, t+1 time qt+1 according to the formula to get the target language sequence of the first t+1 moments of the probability distribution of the word y 't+1 pt+1, according to pt+1 sampling t+1 time target word y' t+1, until the decoding end tag sentence translation, decoding end. The invention is used in the field of Machine Translation.

全部详细技术资料下载

【技术实现步骤摘要】
融合多语编码信息的神经机器翻译方法
本专利技术涉及神经机器翻译方法。
技术介绍
机器翻译是利用计算机将一种源语言转换为另一种目标语言的过程。神经网络兴起之前，主流的统计机器翻译通过对大量的平行语料进行统计分析，构建统计翻译模型，进而句法树，词语对齐等结构，不仅过程繁琐，模型的实现也很复杂。随着神经网络的发展和普及，研究者们尝试将神经网络应用到机器翻译领域，有了现在最主流的端到到的神经机器翻译模型，这种模型不需要复杂的结构和繁琐的人工特征，而是接用神经网络将源语言映射到目标语言，并且这个网络可以联合调整，以最大限度的提高翻译性能。具体而言，这种端到端神经机器翻译模型首先使用一个称为编码器(Encoder)的神经网络将源语言句子X＝(x1,x2,...,x4))编码成一个稠密向量，然后使用一个称为解码器(Decoder)的神经网络通过最大化预测序列概率从该向量中解码出目标语言句子Y＝(y1,y2,...,y5)。由于神经机器翻译模型易实现而且效果好，所以现在的研究和专利技术都致力于改进神经机器翻译模型。神经机器翻译模型取得的成功离跟语言模型有密不可分的联系。语言模型是...
融合多语编码信息的神经机器翻译方法

【技术保护点】
融合多语编码信息的神经机器翻译方法，其特征在于：所述方法具体过程为：步骤一，使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列；使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s1，dic_s2和目标语言词典dic_t；步骤二、基于源端输入语言词典dic_s1对步骤一得到的子字符号序列X＝(x1,x2,...,xT)中每一个词xi使用word embedding分布式方法表示，即用一定维度的向量表示词，wi∈R

【技术特征摘要】
1.融合多语编码信息的神经机器翻译方法，其特征在于：所述方法具体过程为：步骤一，使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列；使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s1，dic_s2和目标语言词典dic_t；步骤二、基于源端输入语言词典dic_s1对步骤一得到的子字符号序列X＝(x1,x2,...,xT)中每一个词xi使用wordembedding分布式方法表示，即用一定维度的向量表示词，wi∈R|V|，wi＝[n1,n2,n3,...,nm],nj∈实数；i＝1,2,...,T；1≤j≤m，wi为词向量；所述wordembedding为词嵌入；其中X＝(x1,x2,...,xT)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，V为源端输入语言词典dic_s1的单词数，m为词向量的维度，取值为正整数；T为句子的词的个数，取值为正整数；将使用词向量表示的词组成的句子W＝(w1,w2,...,wT)输入NMT模型训练，随机初始化W初值，根据初值训练更新W，直至NMT模型的bleu值提升1-3个点；基于源端输入语言词典dic_s2对步骤一得到的子字符号序列Z＝(z1,z2,...,zT′)中每一个词Zk使用wordembedding分布式方法表示，即用一定维度的向量表示词，wk′∈R|V′|，wk′＝[l1,l2,l3,...,lm′]，ll′∈实数；k＝1,2,...,T′；1≤l′≤m′，wk′为词向量；Z＝(z1,z2,...,zT′)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，V′为源端输入语言词表dic_s2的单词数，m′为词向量的维度，取值为正整数；T′为句子的词的个数，取值为正整数；将使用词向量表示的词组成的句子W′＝(w1′,w2′,...,w′T′)输入NMT模型训练，随机初始化W′初值，根据初值训练更新W′，直至NMT模型的bleu值提升1-3个点；步骤三、基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w1,w2,...,wT)和词向量W′＝(w1′,w2′,...,w′T′)进行编码，得到W＝(w1,w2,...,wT)的编码向量ctx_s1和W′＝(w1′,w2′,...,w′T′)的编码向量ctx_s2；步骤四、将编码向量ctx_s1和编码向量ctx_s2进行融合，得到融合结果context＝[ctx_s1；ctx_s2]；步骤五、将得到的融合结果context＝[ctx_s1；ctx_s2]经过attention层按C＝Φ(Wc*context+Wh*q)计算得到C；所述Attention为注意力层；C为融合后的编码信息；其中Φ表示函数变换，Wc表示context对应的权值参数，q表示解码器的隐层状态，Wh表示q对应的权值参数,*为乘号；步骤六、每个时刻t，按照公式qt+1＝φ(C,yt′,qt)计算得到t+1时刻解码器的隐层状态信息qt+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息qt+1，使用公式p(y′t+1|y′＜t+1,X,Z)＝softmax(Wsqt+1+bl)，计算得到第t+1时刻的单词y′t+1的概率分布pt+1，根据pt+1采样出t+1时刻的目标单词y′t+1，直至解码出句子结束标记，解码翻译结束；其中y′t+1为t+1时刻的NMT模型训练得到的目标词；Ws为网络权值参数，qt+1为t+1时刻的解码器的隐层状态信息，bl为网络偏置信息。2.根据权利要求1所述融合多语编码信息的神经机器翻译方法，其特征在于：所述步骤三中基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w1,w2,...,wT)和词向量W′＝(w1′,w2′,...,w′T′)进行编码，得到W＝(w1,w2,...,wT)的编码向量ctx_s1和W′＝(w1′,w2′,...,w′T′)的编码向量ctx_s2；具体过程为：步骤三一、采用门限循环单元GRU构成的双向编码器对W＝(w1,w2,...,wT)按照正向词序列计算正向编码状态信息采用门限循环单元GRU构成的双向编码器对W＝(w1,w2,...,wT)按照反向词序列计算反向编码状态信息采用门限循环单元GRU构成的双向编码器对W′＝(w1′,w2′,...,w′T′)按照正向词序列计算得到正向编码状态信息采用门限循环单元GRU构成的双向编码器对W′＝(w1′,w2′,...,w′T′)按照反向词序列计算反向编码状态信息步骤三二、通过拼接的方法将得到的和拼接在一起，得到通过拼接的方法将得到的和拼接在一起，得到3.融合多语编码信息的神经机器翻译方法，其特征在于：所述方法具体过程为：步骤1)、使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使...

【专利技术属性】
技术研发人员：朱聪慧，曹海龙，赵铁军，刘笛，杨沐昀，郑德权，徐冰，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人