基于字到字翻译的半监督神经机器翻译模型的构建方法技术

技术编号:23765930 阅读:33 留言:0更新日期:2020-04-11 19:49
本发明专利技术涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。本发明专利技术首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料;使用单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器‑解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。本发明专利技术简单有效,能够使模型正常翻译并大幅提升模型翻译性能。

A semi supervised neural machine translation model based on word to word translation

【技术实现步骤摘要】
基于字到字翻译的半监督神经机器翻译模型的构建方法
本专利技术涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理

技术介绍
在自然语言处理领域中,机器翻译是自然语言处理的集大成者,也是其中最具实用意义的研究子领域之一。由于监督式神经机器翻译需要大量平行语料,对于难以获取大量平行语料的语言对来说效果不是很好,因此发展出了非监督式神经机器翻译。在非监督神经机器翻译的中英语言实验中,我们发现由于中英语言差距巨大,导致非监督神经机器翻译模型无法正常工作。因此,提出了两个简单的方法对其进行改进,使得模型能够正常工作,并大幅提高了翻译性能。
技术实现思路
本专利技术提供了基于字到字翻译的半监督神经机器翻译模型的构建方法,以用于进行半监督神经机器翻译模型的构建,解决非监督翻译模型在两种差距巨大的语言间无法正常翻译的问题。本专利技术的技术方案是:一种基于字到字翻译的半监督神经机器翻译模型的构建方法,首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目本文档来自技高网...

【技术保护点】
1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:/n首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。/n

【技术特征摘要】
1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。


2.根据权利要求1所述的基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树prefixtree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:



其中,1表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用...

【专利技术属性】
技术研发人员:余正涛刘科材李磊王振晗吴霖
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1