一种基于对抗神经网络的蒙汉机器翻译方法技术

技术编号:19593224 阅读:32 留言:0更新日期:2018-11-28 04:50
一种基于对抗神经网络的蒙汉翻译方法,在原机器翻译的生成网络G的基础上,引入一个与生成网络G对抗的判别网络D;所述判别网络D主要对生成网络G的输出实现二值分类,判断目标语言的译文,如果是来源于训练的平行语料库,则返回值为1,若来源于生成网络G机器翻译的结果,则返回值为0。当真实数据的概率分布不可(难以)计算的时候(比如源语言平行语料数据较少),通过生成器和判别器对抗的训练机制,能够使生成器去逼近难以计算的概率分布。

【技术实现步骤摘要】
一种基于对抗神经网络的蒙汉机器翻译方法
本专利技术属于计算机
,特别涉及一种基于对抗神经网络的蒙汉机器翻译方法。
技术介绍
机器翻译(MachineTranslation,简称MT),是自然语言处理领域中的一个最早的研究分支,它是利用计算机(机器)把一种自然语言转变成具有完全相同含义的另一种自然语言的过程。机器翻译是人工智能的一个研究方向,具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展,机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。目前,基于神经网络的机器翻译方法是机器翻译领域得到译文效果最佳的方法。它主要采用“编码-解码”结构,由编码器和解码器两个部分组成,二者均采用循环神经网络(RecurrentNeuralNetwork,RNN)和长短时记忆(LongShort-TermMemory,LSTM)网络结构。翻译的流程包括:首先,编码器将输入的源语言句子转换成为一个词向量序列作为循环神经网络的输入,编码器会输出一个固定长度的密集向量,称为上下文向量。然后,解码器以上下文向量作为输入,利用另外一个循环神经网络结合一个Softmax分类器,输出目标语言的词向量序列。最后,利用词典把词向量逐个映射成为目标语言词,完成整个翻译过程。然而,采用现有的RNN与LSTM神经网络模型需要大量的人工标注的双语平行语料库。但是存在的现实问题是,人工标注平行语料的工作量大、成本高,并且缺乏高质量的人工标注平行语料库。而这些不足将会在很大程度上影响最后的译文质量。这是现有神经网络机器翻译模型面临的瓶颈问题。而特别对于一些小语种(如蒙古语)来说,这些问题更加突出,可用于训练神经网络模型的平行语料库数据更少,这样就难以训练和构建出高质量、高性能的机器翻译系统。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于对抗神经网络的蒙汉机器翻译方法。为了实现上述目的,本专利技术采用的技术方案是:一种基于对抗神经网络的蒙汉翻译方法,在原机器翻译的生成网络G的基础上,引入一个与生成网络G对抗的判别网络D;所述判别网络D主要对生成网络G的输出实现二值分类,判断目标语言的译文,如果是来源于训练的平行语料库,则返回值为1,若来源于生成网络G机器翻译的结果,则返回值为0。所述判别网络D采用多层感知器前馈神经网络模型,所述二值分类的方法为:采用修正线性单元(RELU)的形式:其中,x为生成网络G向判别网络D的输入信号;α为可调常数,且α应很小,如可以设为α=0.001;多层感知器前馈神经网络通过以下公式进行信息传播:a(l)=fl(W(l)·a(l-1)+b(l))其中,a(l)表示l层神经元的输出,fl表示l层神经元的激活函数,W(l)表示l-1层到l层的权重矩阵,b(l)表示l-1层到l层的偏置,其中激活函数采用sigmoid激活函数:多层感知器前馈神经网络模型进行二值分类时,将输入层向量X作为第一层的输入a(0)代入f(W·a+b)中,计算出输出a(l)作为整个函数输出向量Y,选择Y中数值较大维度所代表的类别,作为分类结果,指示译文是来源于平行语料库,还是来源于生成网络G。所述生成网络G采用卷积神经网络(CNN),由编码器和解码器两部分组成;所述编码器和解码器都为多层的深度CNN,均利用CNN卷积核获取短距离依赖信息,并通过增加CNN深度来获取远距离依赖信息,每层解码器配备一个注意力机制。所述判别网络D通过与生成网络G的对抗式训练,同步提高生成网络G生成目标语言的能力和提高判别网络D判断译文来源的能力;在对抗式训练过程中,判别网络D用于判断出译文是来源于平行语料库数据,还是生成网络G机器翻译的结果;判别网络D学习的过程为生成网络G和判别网络D之间的竞争过程,具体包括:随机从真实样本和由生成网络G生成出的样本中取一个,让判别网络D去判断是否为真;通过竞争式的机器学习机制,使生成网络G和判别网络D的性能不断提升;当整个网络达到纳什均衡状态,即两个网络参数稳定时,训练完成;此时,生成网络G生成的机器翻译结果,已经能够骗过判别网络D,使其认为译文来源于平行语料;此时,生成网络G模型即可作为输出的机器翻译模型。可将对抗式训练的过程看成如下优化任务:V(D,G)=Ex~Pdata(x)[logD(x)]+Ez~Pz(z)[log(1-D(G(z)))]该优化任务是关于判别网络D和生成网络G的价值函数(ValueFunction),其中,x表示平行语料库中的数据;z表示输入生成网络的源语言数据;E表示该事件的期望;G(z)表示生成网络G生成的译文数据;D(x)为判别网络D判断x是否来源于平行语料库的概率;D(G(z))表示判别网络D判断生成网络G生成的译文是否来源于平行语料库的概率。训练过程中固定一方,更新另一个网络的参数,交替迭代,使得对方的错误最大化,最终,生成网络G能估测出样本数据的分布,生成模型隐式地定义了一个概率分布P(g),数据真实分布为P(data),当且仅当P(g)=P(data)时存在最优解,即达到纳什均衡,此时生成网络G恢复了训练数据的分布,判别模型的准确率等于50%。通过将生成网络G和判别网络D进行串联训练以形成完整的生成对抗网络;将生成网络G中编码器的输入向量和解码器的输出向量进行连接,作为输入传递给判别网络D;同时,将判别网络D的输出结果0或者1反馈给生成网络G。所述训练的平行语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,参与生成网络D的训练。与现有技术相比,本专利技术的有益效果是:当真实数据的概率分布不可(难以)计算的时候(比如源语言平行语料数据较少),传统的神经网络模型无法直接应用。但是对抗神经网络仍然可以使用,通过生成器和判别器对抗的训练机制,能够使生成器去逼近难以计算的概率分布。附图说明图1是本专利技术基于对抗神经网路的蒙汉机器翻译方法的流程图。图2是卷积神经网络(CNN)神经网络与判别网络结构图。图3是编码器采用卷积神经网络示意图。图4是解码器采用卷积神经网络示意图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。如图1所示,本专利技术是一种基于对抗神经网络的蒙汉机器翻译方法,在原机器翻译的生成网络G的基础上,引入一个与生成网络G对抗的判别网络D;通过实现二值分类的方法,判断目标语言的译文,如果是来源于训练的平行语料库,则返回值为1,若来源于生成网络G机器翻译的结果,则返回值为0。判别网络D采用多层感知器前馈神经网络模型,二值分类方法为:采用修正线性单元(RELU)的形式:选用RELU,其在梯度下降上比较tanh有更快的收敛速度,且计算开销较小。整个多层感知器前馈神经网络通过以下公式进行信息传递:z(l)=W(l)·a(l-1)+b(l)(1)a(l)=fl(z(l))(2)将(1)与(2)进行合并得:a(l)=fl(W(l)·a(l-1)+b(l))(3)其中,z(l)表示l层神经元的输入,表示a(l)表示l层神经元的输出,fl表示l层神经元的激活函数,W(l)表示l-1层到l层的权重矩阵,b(l)表示l-1层到l层的偏置。其中激活函数fl均采用sigmoid激活函数:多层感知器前馈神经网络模型进行二值分类时,将输本文档来自技高网
...

【技术保护点】
1.一种基于对抗神经网络的蒙汉翻译方法,其特征在于,在原机器翻译的生成网络G的基础上,引入一个与生成网络G对抗的判别网络D;所述判别网络D主要对生成网络G的输出实现二值分类,判断目标语言的译文,如果是来源于训练的平行语料库,则返回值为1,若来源于生成网络G机器翻译的结果,则返回值为0。

【技术特征摘要】
1.一种基于对抗神经网络的蒙汉翻译方法,其特征在于,在原机器翻译的生成网络G的基础上,引入一个与生成网络G对抗的判别网络D;所述判别网络D主要对生成网络G的输出实现二值分类,判断目标语言的译文,如果是来源于训练的平行语料库,则返回值为1,若来源于生成网络G机器翻译的结果,则返回值为0。2.根据权利要求1所述基于对抗神经网络的蒙汉机器翻译方法,其特征在于,所述判别网络D采用多层感知器前馈神经网络模型,所述二值分类的方法为:采用修正线性单元(RELU)的形式:其中,x为生成网络G向判别网络D的输入信号;α为可调常数;多层感知器前馈神经网络通过以下公式进行信息传播:a(l)=fl(W(l)·a(l-1)+b(l))其中,a(l)表示l层神经元的输出,fl表示l层神经元的激活函数,W(l)表示l-1层到l层的权重矩阵,b(l)表示l-1层到l层的偏置,其中激活函数采用sigmoid激活函数:多层感知器前馈神经网络模型进行二值分类时,将输入层向量X作为第一层的输入a(0)代入f(W·a+b)中,计算出输出a(l)作为整个函数输出向量Y,选择Y中数值较大维度所代表的类别,作为分类结果,指示译文是来源于平行语料库,还是来源于生成网络G。3.根据权利要求1所述基于对抗神经网络的蒙汉机器翻译方法,其特征在于,所述生成网络G采用卷积神经网络(CNN),由编码器和解码器两部分组成;所述编码器和解码器都为多层的深度CNN,均利用CNN卷积核获取短距离依赖信息,并通过增加CNN深度来获取远距离依赖信息,每层解码器配备一个注意力机制。4.根据权利要求1所述基于对抗神经网络的蒙汉机器翻译方法,其特征在于,所述判别网络D通过与生成网络G的对抗式训练,同步提高生成网络G生成目标语言的能力和提高判别网络D判断译文来源的能力;在对抗式训练过程中,判别网络D用于判断出译文是来源于平行语料库数据,还是生成网络G机器翻译的结果;判别网络D学习的过程为生成网络G和判别网络D之...

【专利技术属性】
技术研发人员:苏依拉王宇飞孙晓骞高芬张振牛向华赵亚平
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1