一种基于卷积神经网络的蒙汉神经翻译方法技术

技术编号:19215664 阅读:24 留言:0更新日期:2018-10-20 06:42
一种基于卷积神经网络的蒙汉神经翻译方法,采用编码‑解码结构,编码器和解码器均采用多层的深度卷积神经网络,翻译过程中:首先,在编码器和解码器卷积神经网络的输入端加入位置向量使二者均具备循环神经网络捕捉输入序列中词的位置信息的功能;其次,利用层叠的卷积神经网络构成层次表示,通过层次化的结构,实现捕捉长度在20个词以上的序列的依赖关系的功能;最后,为解码器卷积神经网络的每一层都配备一个注意力机制,通过注意力机制决定哪些信息是重要的,并逐步往下传递;本发明专利技术对卷积神经网络各个结构进行细节改进,利用卷积神经网络具有并行处理的特征,在卷积神经网络架构数据处理速度较快的基础上,优化了蒙汉神经翻译的翻译准确率。

【技术实现步骤摘要】
一种基于卷积神经网络的蒙汉神经翻译方法
本专利技术属于机器翻译
,特别涉及一种基于卷积神经网络的蒙汉神经翻译方法。
技术介绍
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。机器翻译(MachineTranslation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。神经网络技术起源于上世纪五、六十年代,当时叫感知机,拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。ConvolutionalNeuralNetwork卷积神经网络是基于人工神经网络提出的。人工神经网络模拟人的神经系统,由一定数量的神经元构成。在一个监督学习问题中,有一组训练数据(xi,yi),x是样本,y是label,把它们输入人工神经网络,会得到一个非线性的分类超平面hw,b(x)。一个神经元是神经网络中的一个运算单元,它实质上就是一个函数。图1是一个神经元的示意图。有3个输入x1,x2,x3,+1是一个偏置值(bias),输出f是激活函数(activationfunction),这里的激活函数用的是sigmoid函数:sigmoid函数图像如图2。激活函数是以0.5为分界,让大值更逼近1,小值更逼近0,因为人的神经元就是有分“激活”和“不激活”两种状态,刺激达到一定程度,就被激活,传播信号,达不到就不激活,不传播信号,人工神经网络中激活函数的设计,应该是为了模拟这个过程。NalKalchbrenner和EdwardGrefenstette在2013年提出的基于“编码-解码结构”一种新的机器翻译框架,对于源语言句子,采用一个卷积神经网络把它映射成一个连续稠密的隐向量,再使用一个递归神经网络做为解码器,把这个隐向量解码成目标语言句子。这样做的优点在于可以使用RNN来处理长短不一的输入句子,尽量捕获其全部历史信息,但因为RNN存在着“梯度消失”和“梯度爆炸”的问题,没办法捕获比较长时间的依赖关系。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于卷积神经网络的蒙汉神经翻译方法,对卷积神经网络(CNN)各个结构进行细节上的改进,利用卷积神经网络具有并行处理的特征,在卷积神经网络架构数据处理速度较快的基础上,优化了蒙汉神经翻译的翻译准确率。为了实现上述目的,本专利技术采用的技术方案是:一种基于卷积神经网络的蒙汉神经翻译方法,采用编码-解码结构,其特征在于,编码器和解码器均采用多层的深度卷积神经网络,翻译过程中:首先,在编码器和解码器卷积神经网络的输入端加入位置向量使二者均具备循环神经网络捕捉输入序列中词的位置信息的功能;其次,利用层叠的卷积神经网络构成层次表示,通过层次化的结构,实现捕捉长度在20个词以上的序列的依赖关系的功能;最后,为解码器卷积神经网络的每一层都配备一个注意力机制,通过注意力机制决定哪些信息是重要的,并逐步往下传递。所述位置向量为词在句子中的绝对位置向量,卷积神经网络输入由词向量与位置向量相加形成,表达如下:x=(x1,…,xm)w=(w1,…,wm)p=(p1,…,pm)e=(w1+p1,…,wm+pm)其中x表示输入序列,xm表示输入序列的第m个元素,m表示输入的句子中的词的个数,w表示输入序列对应的词向量,wm表示输入序列对应的词向量的第m个元素,p表示位置向量,pm表示位置向量的第m个元素,e表示词向量和位置向量相加而成的卷积神经网络的输入向量。所述编码器和解码器使用相同的卷积层结构,每一层均由一个一维的卷积网络加一个非线性层组合而成,表达如下:其中v表示非线性层,表示逐元素相乘,表示第l层第i个输出,Wl表示第l层的卷积核矩阵,表示第l层的卷积核矩阵的偏置,表示第l-1层第i个输出,A为向量集,作为输入,是卷积的第一个参数,B为向量集,是卷积神经网络的核函数,σ(B)表示过程参数的平均值的分布或离散程度,k表示卷积核(过滤器filter)的个数。底层的卷积神经网络捕捉相距较近的词之间的依赖关系,高层的卷积神经网络捕捉相距较远的词之间的依赖关系。所述为解码器卷积神经网络每一层都配备一个注意力机制,包括三个阶段,分别用公式表达如下:在第一阶段,引入不同的函数和计算机制,根据输入源语言句子矩阵A和标签B,计算两者的相似性或相关性,标签B为目标语句向量;最常见的方法包括:求两者的向量点积第一阶段产生的分值根据具体产生的方法不同其数值取值范围也不一样,第二阶段引入类似SoftMax的计算方式对第一阶段的得分进行数值转换;,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算:第二阶段的计算结果ai即为Valuei对应的权重系数,然后进行加权求和即可得到Attention数值;其中,Lx=||Source||代表Source的长度,通过如上三个阶段的计算,即可求出针对B的Attention数值,目前绝大多数具体的注意力机制计算方法都符合上述的三阶段抽象计算过程。所述编码器和解码器的卷积神经网络中,输入是以矩阵表示的句子或者文档,矩阵的每一行表示一个词向量,在卷积层,通过和卷积模板做卷积运算,然后加上偏置值,再经过sigmoid激活函数,得到输出图像,在下采样层,对输出图像做下采样,再加偏置,再通过激活函数,得到尺寸减小了的输出词向量矩阵,再经过更多的卷积层和下采样层,将最终输出拉成一个词向量。与现有技术相比,本专利技术的有益效果是:CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;卷积网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。附图说明图1是一个神经元的示意图。图2是sigmoid函数图像。图3是本专利技术的卷积神经网络(CNN)结构示意图。图4是池化原理模型图。图5是抽象的简单编码器-解码器框架。图6是引入注意力模型的编码器-解码器框架。图7是蒙汉互译实验框架图。具体实施方式下面结合附图和实施例详本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的蒙汉神经翻译方法,采用编码‑解码结构,其特征在于,编码器和解码器均采用多层的深度卷积神经网络,翻译过程中:首先,在编码器和解码器卷积神经网络的输入端加入位置向量使二者均具备循环神经网络捕捉输入序列中词的位置信息的功能;其次,利用层叠的卷积神经网络构成层次表示,通过层次化的结构,实现捕捉长度在20个词以上的序列的依赖关系的功能;最后,为解码器卷积神经网络的每一层都配备一个注意力机制,通过注意力机制决定哪些信息是重要的,并逐步往下传递。

【技术特征摘要】
1.一种基于卷积神经网络的蒙汉神经翻译方法,采用编码-解码结构,其特征在于,编码器和解码器均采用多层的深度卷积神经网络,翻译过程中:首先,在编码器和解码器卷积神经网络的输入端加入位置向量使二者均具备循环神经网络捕捉输入序列中词的位置信息的功能;其次,利用层叠的卷积神经网络构成层次表示,通过层次化的结构,实现捕捉长度在20个词以上的序列的依赖关系的功能;最后,为解码器卷积神经网络的每一层都配备一个注意力机制,通过注意力机制决定哪些信息是重要的,并逐步往下传递。2.根据权利要求1所述基于卷积神经网络的蒙汉神经翻译方法,其特征在于,所述位置向量为词在句子中的绝对位置向量,卷积神经网络输入由词向量与位置向量相加形成,表达如下:x=(x1,...,xm)w=(w1,...,wm)p=(p1,…,pm)e=(w1+p1,...,wm+pm)其中x表示输入序列,xm表示输入序列的第m个元素,m表示输入的句子中的词的个数,w表示输入序列对应的词向量,wm表示输入序列对应的词向量的第m个元素,p表示位置向量,pm表示位置向量的第m个元素,e表示词向量和位置向量相加而成的卷积神经网络的输入向量。3.根据权利要求1所述基于卷积神经网络的蒙汉神经翻译方法,其特征在于,所述编码器和解码器使用相同的卷积层结构,每一层均由一个一维的卷积网络加一个非线性层组合而成,表达如下:其中v表示非线性层,表示逐元素相乘,表示第l层第i个输出,Wl表示第l层的卷积核矩阵,表示第l层的卷积核矩阵的偏置,表示第l一1层第i个输出,A为向量集,作为输入,是卷...

【专利技术属性】
技术研发人员:苏依拉张振王宇飞孙晓骞高芬赵亚平牛向华
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1