一种基于强化学习的蒙汉双语种互译方法技术

技术编号:19634988 阅读:40 留言:0更新日期:2018-12-01 15:43
编码器‑解码器架构的神经机器翻译(NMT)在当前的标准机器翻译基准上实现了最佳的结果,但由于训练该模型需要大量平行语料数据,对于少数民族语言翻译领域而言,普遍面临双语对齐语料不足,资源稀少,因此本发明专利技术提供一种基于强化学习的蒙汉双语种互译方法。系统接受一个蒙语句子来翻译,生成一个汉语句子,并且得到一个标量分数作为反馈。利用强化学习技术,从反馈中有效地学习。在强化学习中定义解法的数学框架叫做马尔科夫决策过程。目标是找到一个策略使得预期的翻译质量最大化。在训练过程中,如果某个行为策略导致环境大的奖赏,那么以后产生这个行为策略的趋势便会加强,最终找到最优策略以使期望的折扣奖赏和最大,使得翻译质量提高。

A method of Mongolian-Chinese bilingual translation based on Reinforcement Learning

Neural Machine Translation (NMT) with Encoder-Decoder Architecture achieves the best results in the current standard machine translation benchmark. However, due to the large amount of parallel corpus data required for training the model, the bilingual aligned corpus is generally insufficient and the resources are scarce in the field of minority language translation. Therefore, the present invention provides one. A method of Mongolian-Chinese bilingual translation based on reinforcement learning. The system accepts a Mongolian sentence to translate, generates a Chinese sentence, and gets a scalar score as feedback. Using reinforcement learning technology, we can learn effectively from feedback. The mathematical framework for defining solutions in reinforcement learning is called Markov decision process. The goal is to find a strategy to maximize the expected translation quality. In the process of training, if a certain behavior strategy leads to a reward of great environment, the trend of this behavior strategy will be strengthened in the future. Finally, the optimal strategy will be found to maximize the expected discount reward and improve the quality of translation.

【技术实现步骤摘要】
一种基于强化学习的蒙汉双语种互译方法
本专利技术属于机器学习
,特别涉及一种基于强化学习的蒙汉双语种互译方法。
技术介绍
随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流日渐频繁,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。在我国经济快速发展与社会不断进步的背景下,蒙古族与汉族的之间的交流日益频繁,而蒙古语是我国蒙古族同胞使用的主要语言,并且蒙语作为蒙古国的官方语言,因此蒙汉机器翻译的研究对于两种文化的价值观相互渗透,凝聚民族的核心文化,促进良好民族关系的建立以及促进和蒙古国之间的对外贸易和文化交流都具有重要意义。目前,编码器-解码器架构的神经机器翻译(NMT)在当前的标准机器翻译基准上实现了最佳的结果,并且也已经在业界的翻译服务核心得到了应用。NMT模型由编码器和解码器两者组成,二者均采用循环神经网络(RecurrentNeuralNetwork,RNN)结构。可使用双向的RNN作为编码器和单向的RNN作为解码器,这个框架从源语言句子a={a1,a2,...,an}到正确的双语库目标语言句子b={b1,b2,...,bm}学习了一个概率映射Pθ(b|a),其中an和bm分别是源语言句子a的第n个词和正确双语库目标语言句子b的第m个词。注:bt:双语库中目标语言句子b的第t个词。b<t:bt先前的词。每一个局部分布式Pθ(b|b<t,a)通过目标词汇建模成一个多项式分布。根据softmax函数,把公式(1)线性转化,解码器输出矢量ct=attend(s'1:n,st)(4)注:attend(.,.):一种注意力机制τ:softmax函数的参数s:解码器生成的隐藏向量s':编码器生成的隐藏向量在一个监督的学习框架中,一个NMT模型通常是在最大的逻辑可能性下进行训练的,但由于训练该模型需要大量平行语料数据,才能得到比较好的结果。但是对于少数民族语言翻译领域而言,此类翻译任务普遍面临双语对齐语料不足,资源稀少,翻译研究时间短,成果少等困难。并且平行语料库的获得成本非常之高,且需要相对应的专业知识。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于强化学习的蒙汉双语种互译方法,对NMT模型进行微调,微调的训练过程只关注相关的句子,同时利用强化学习反馈机制,接受一个源语言句子进行翻译,生成一个目标语言语句子,并且得到一个标量分数作为反馈,利用强化学习技术,从反馈中有效地学习。为了实现上述目的,本专利技术采用的技术方案是:一种基于强化学习的蒙汉双语种互译方法,基于编码-解码架构的神经机器翻译系统,其特征在于,系统接受一个源语言句子a进行翻译,生成一个目标语言句子同时得到一个标量分数作为反馈利用强化学习方法从所述反馈中学习,所述强化学习方法为马尔科夫决策过程,由解码器生成的隐藏向量作为状态,编码器的编码作为动作,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛。所述编码器和解码器均采用循环神经网络(RNN)结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...,st):s0=Φ(a)其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st-1表示解码器t-1时刻的隐藏状态,表示t-1时刻解码器的输出矢量。利用系统预测值代替bt,表示模型策略,Pθ(b|a)表示从源语言句子a={a1,a2,...an}到双语库中正确的目标语言句子b={b1,b2,...bm}学习的一个概率映射,an是源语言句子a的第n个词,bm是双语库中正确的目标语言句子b的第m个词,定义Z(θ)=E(x,y)~Dtr[logPθ(b|a)],其中,Dtr表示训练集,E表示期望,Pθ(bt|b<t,a)是一个随机策略,b<t表示bt先前的词,表示先前的词。通过随机策略Pθ(bt|b<t,a)来采取下一步行动,以t-1时刻的隐藏状态st-1作为输入,生成一个所有行为在目标词汇的概率分布,选择下一个动作是取argmax还是从这个策略取样,通过从模型策略中取样作为目标函数使预期的翻译质量最大化,目标函数为:通过梯度下降优化所述目标函数,公式如下:再通过奇点采样和V的values来标准化奖励机制,从而减少上述公式的误差,并实现系统更新,公式如下:其中,其中,是一个返回[0,1]分数的奖励函数,反映输入译文的质量,θ是训练模型参数,是目标函数,是关于θ的梯度表示,t是迭代次数。训练一个奖赏模型Vw来估计V的值,Vw是一种基于注意力的编码解码器,通过Vw,将编码源语言句子a解码,预测在时刻t,计算其中W0是将向量转化成标量的矩阵,是RNN解码器的输出向量,通过以下公式训练奖赏机制以在实际值和预测值之间最小化均方误差:给定一个固定的a,该公式的梯度下降函数为:根据该下降函数,实现奖赏机制更新。其中,||·||2为欧几里得范数,为二范式,二范数是指空间上两个向量矩阵的直线距离。即两点之间的最短距离,来表示实际值和预测值之间的最小差距。是Z'(w)关于w的梯度表示,是Vw关于w的梯度表示,表示先前的词。首先所述系统接受一个源语言句子a进行翻译,初始化翻译模型参数θ,然后根据翻译模型Pθ(b|a),生成一个预测值获得反馈通过策略梯度优化翻译模型中的参数,从而达到奖励最大化重复以上步骤直到算法收敛,便能得到最佳翻译模型。与现有技术相比,本专利技术的有益效果是:强化学习不同于监督学习和非监督学习。首先,监督学习只能从标注的数据进行学习;而强化学习可以从未标注的数据进行学习。其次,半监督尽管可以对未标注的样本生成伪标签,但是无法知道这些标签的好坏,而强化学习生成的反馈能知道中间过程产生伪标签的好坏,因而可以更有效地利用未标签的数据。在强化学习中没有原始已知的数据可以学习。强化学习面对的是一个不断变化的状态空间,要解决的是一个决策链的问题。其目的是找到在当前环境(状态空间)下的最佳决策是什么。但是当下的决策好坏当下无法验证和评估,要根据多次决策以后才能知道。所以强化学习没有大量的原始已知数据,机器需要在变化的环境中通过大量的多次试错学习,再根据某种规则找到产生最佳结果的最佳路径,从而做出最佳决策。因而,本专利技术一种基于强化学习的双语种互译方法,对于少数民族语言翻译领域而言,很好解决了双语对齐语料不足,资源稀少等困难。附图说明图1是强化学习基本模型示意图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。本专利技术一种基于强化学习的蒙汉双语神经翻译方法,采用编码-解码结构,对NMT模型进行微调,微调的训练过程只关注相关的句子,同时利用强化学习反馈机制,接受一个源语言句子进行翻译,生成一个目标语言句子,并且得到一个标量分数作为反馈,利用强化学习技术,从反馈中有效地学习。具体地,本专利技术利用强化学习策略梯度方法来训练蒙汉翻译模型,希望提高策略以最大化长远的回报,但是没有标注的样本不会告知在某个状态a哪个动作b是正确的,因此只有通过使用策略在不同的状态下执行不同的动作本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的蒙汉双语种互译方法,基于编码‑解码架构的神经机器翻译系统,其特征在于,系统接受一个源语言句子a进行翻译,生成一个目标语言句子

【技术特征摘要】
1.一种基于强化学习的蒙汉双语种互译方法,基于编码-解码架构的神经机器翻译系统,其特征在于,系统接受一个源语言句子a进行翻译,生成一个目标语言句子同时得到一个标量分数作为反馈利用强化学习方法从所述反馈中学习,所述强化学习方法为马尔科夫决策过程,由编码器的编码作为动作,解码器生成的隐藏向量作为状态,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛。2.根据权利要求1所述基于强化学习的蒙汉双语种互译方法,其特征在于,所述编码器和解码器均采用循环神经网络(RNN)结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...st):s0=Φ(a)其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st-1表示t-1时刻解码器的隐藏状态,表示t-1时刻解码器的输出矢量。3.根据权利要求2所述基于强化学习的蒙汉双语种互译方法,其特征在于,对于给定的一个源语言句子a,其预测值的第t个词即可以用下列公式表示表示模型策略,Pθ(b|a)表示从源语言句子a={a1,a2,...,an}到双语库中正确的目标语言句子b={b1,b2,...,bm}学习的一个概率映射,an是句子源语言句子a的第n个词,bm是双语库中正确的目标语言句子b的第m个词,定义Z(θ)=E(a,b)~Dtr[logPθ(b|a)],其中,Dtr表示训练集,E表示期望,符号~表示取值范围,Pθ(bt|b<t,a)是一个随机策略,b<t表示bt先前的词,表示先前的词;通过随机策略Pθ...

【专利技术属性】
技术研发人员:苏依拉高芬张振王宇飞孙晓骞牛向华赵亚平
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1