Neural Machine Translation (NMT) with Encoder-Decoder Architecture achieves the best results in the current standard machine translation benchmark. However, due to the large amount of parallel corpus data required for training the model, the bilingual aligned corpus is generally insufficient and the resources are scarce in the field of minority language translation. Therefore, the present invention provides one. A method of Mongolian-Chinese bilingual translation based on reinforcement learning. The system accepts a Mongolian sentence to translate, generates a Chinese sentence, and gets a scalar score as feedback. Using reinforcement learning technology, we can learn effectively from feedback. The mathematical framework for defining solutions in reinforcement learning is called Markov decision process. The goal is to find a strategy to maximize the expected translation quality. In the process of training, if a certain behavior strategy leads to a reward of great environment, the trend of this behavior strategy will be strengthened in the future. Finally, the optimal strategy will be found to maximize the expected discount reward and improve the quality of translation.
【技术实现步骤摘要】
一种基于强化学习的蒙汉双语种互译方法
本专利技术属于机器学习
,特别涉及一种基于强化学习的蒙汉双语种互译方法。
技术介绍
随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流日渐频繁,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。在我国经济快速发展与社会不断进步的背景下,蒙古族与汉族的之间的交流日益频繁,而蒙古语是我国蒙古族同胞使用的主要语言,并且蒙语作为蒙古国的官方语言,因此蒙汉机器翻译的研究对于两种文化的价值观相互渗透,凝聚民族的核心文化,促进良好民族关系的建立以及促进和蒙古国之间的对外贸易和文化交流都具有重要意义。目前,编码器-解码器架构的神经机器翻译(NMT)在当前的标准机器翻译基准上实现了最佳的结果,并且也已经在业界的翻译服务核心得到了应用。NMT模型由编码器和解码器两者组成,二者均采用循环神经网络(RecurrentNeuralNetwork,RNN)结构。可使用双向的RNN作为编码器和单向的RNN作为解码器,这个框架从源语言句子a={a1,a2,...,an}到正确的双语库目标语言句子b={b1,b2,...,bm}学习了一个概率映射Pθ(b|a),其中an和bm分别是源语言句子a的第n个词和正确双语库目标语言句子b的第m个词。注:bt:双语库中目标语言句子b的第t个词。b<t:bt先前的词。每一个局部分布式Pθ(b|b<t,a)通过目标词汇建模成一个多项式分布。根据softmax函数,把公式(1)线性转化,解码器输出矢量ct=attend(s'1:n,st)(4)注: ...
【技术保护点】
1.一种基于强化学习的蒙汉双语种互译方法,基于编码‑解码架构的神经机器翻译系统,其特征在于,系统接受一个源语言句子a进行翻译,生成一个目标语言句子
【技术特征摘要】
1.一种基于强化学习的蒙汉双语种互译方法,基于编码-解码架构的神经机器翻译系统,其特征在于,系统接受一个源语言句子a进行翻译,生成一个目标语言句子同时得到一个标量分数作为反馈利用强化学习方法从所述反馈中学习,所述强化学习方法为马尔科夫决策过程,由编码器的编码作为动作,解码器生成的隐藏向量作为状态,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛。2.根据权利要求1所述基于强化学习的蒙汉双语种互译方法,其特征在于,所述编码器和解码器均采用循环神经网络(RNN)结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...st):s0=Φ(a)其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st-1表示t-1时刻解码器的隐藏状态,表示t-1时刻解码器的输出矢量。3.根据权利要求2所述基于强化学习的蒙汉双语种互译方法,其特征在于,对于给定的一个源语言句子a,其预测值的第t个词即可以用下列公式表示表示模型策略,Pθ(b|a)表示从源语言句子a={a1,a2,...,an}到双语库中正确的目标语言句子b={b1,b2,...,bm}学习的一个概率映射,an是句子源语言句子a的第n个词,bm是双语库中正确的目标语言句子b的第m个词,定义Z(θ)=E(a,b)~Dtr[logPθ(b|a)],其中,Dtr表示训练集,E表示期望,符号~表示取值范围,Pθ(bt|b<t,a)是一个随机策略,b<t表示bt先前的词,表示先前的词;通过随机策略Pθ...
【专利技术属性】
技术研发人员:苏依拉,高芬,张振,王宇飞,孙晓骞,牛向华,赵亚平,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:内蒙古,15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。