基于变分推理和多任务学习的多模态机器翻译方法技术

技术编号:26531489 阅读:60 留言:0更新日期:2020-12-01 14:12
本发明专利技术公开了一种基于变分推理和多任务学习的多模态机器翻译方法,该方法具备翻译能力前,首先得用变分推理理论对图像、文本等多模态信息进行多任务建模,然后在给定足量训练集的情况下,训练得到变分多模态机器翻译模型,由此获得机器翻译能力。最后本方法通过束搜索和最大似然来预测出多个翻译文本。本发明专利技术的创新点在于创建并使用了一种能够将图像等多模态信息融入机器翻译的模型:变分多模态机器翻译。本发明专利技术的变分模型构建了一套混淆图像和文本语义的特征提取神经网络框架,同时推导出了建模过程和自我学习更新过程,给出了详细的推导算法,并指导性的给出了应用方法。

【技术实现步骤摘要】
基于变分推理和多任务学习的多模态机器翻译方法
本专利技术涉及计算机
,涉及机器翻译技术,特别涉及一种基于变分推理和多任务学习的多模态机器翻译方法。
技术介绍

技术介绍
涉及四大块:变分推理与变分编码器-解码器框架,信息瓶颈理论,多任务学习,神经机器翻译。1)变分推理与变分编码器-解码器(VariationalInferenceandVariationalEncoder-Decoder)变分推理是一种常见的近似推理技术。变分编码器-解码器是其在机器翻译领域的一个重要应用。变分编码器-解码器由变分自编码器(VariationalAutoEncoder)推广而来,将输入数据x映射为不同的输出数据y。与一般的编码器-解码器框架不同,变分编码器-解码器将x编码后会经过一个变分层再解码成y,这样相当于为x增加了一个噪声,有助于增加模型的鲁棒性。变分编码器-解码器的框架图如图2所示,这里以正态分布做变分后验分布为例。经编码器编码后的特征会分别经过一个全连接层,转换成潜在语义表示z变分分布的均值μz和方差σz,然后再从正态分布N(μz,σz)中采样得到z,最后输入解码器解码成y。这里的正态分布就是对真实后验分布p(z|x,y)的近似。给定变分分布的数学形式,变分推理通过最小化变分分布和真实分布的KL散度得到真实后验分布的近似。直接优化这个KL散度是困难的,变分推理通过它与证据(evidence)的关系得到证据下界(Evidencelowerbound,ELBO)作为优化目标,推导如下,r>logp(x,y)=KL[q(z|x,y),p(z|x,y)]+logp(x,y|z)-KL[q(z|x,y),p(z)]≥logp(x,y|z)-KL[q(z|x,y),p(z)]其中logp(x,y)即证据,q(z|x,y)和p(z|x,y)分别是变分后验分布和真实后验分布,logp(x,y|z)可以表示模型的似然,KL[q(z|x,y),p(z)]是KL正则项,它们共同组成了证据下界。从上式看,最小化变分分布和真实后验之间的KL散度即最大化证据下界。在深度学习中,通常使用重参数化技巧求得变分分布参数的梯度,然后采取基于梯度的优化方法最大化证据下界。变分机器翻译模型通常近似后验分布p(z|x,y),其中x是源语言句子,y是目标语言句子。在变分分布的计算中,需要同时知道x和y。然而在推理过程中,y是不知道的,这导致变分机器翻译在推理过程中引入了额外的网络结构或是特殊的推理算法,导致整个模型的复杂度增高。2)信息瓶颈理论(InformationBottleneckTheory)信息瓶颈理论认为应该找到输入数据x的一个压缩映射,这个映射会尽可能地保留有用的信息并过滤冗余信息。信息瓶颈理论以互信息为度量,将优化目标设为如下形式,argmaxzI(z,y)s.t.I(x,z)≤Ic.其中I(·)代表互信息,Ic是一个常量,表示需要保留的最大信息量。这个优化问题的拉格朗日函数为:JIB=I(z,y)-βI(x,z).这里引入了拉格朗日乘子β,它是一个超参数。直观上看,第一项帮助潜在语义编码z尽可能保留与y相关的信息,用以预测y,而第二项强迫z尽可能地“忘记”关于x的信息,β控制着两者的平衡。从本质上来说,这个优化目标迫使编码器忽略无关信息并尽可能保留与y相关的信息。然而,互信息的计算是困难的,但可以求它的变分下界,称作变分信息瓶颈(VariationalInformationBottleneck,VIB),其形式如下:其中q(z|x)是一个变分分布,用以近似真实后验分布p(z|x),r(z)是边际分布p(z)的近似。将上式子写为期望的形式,变分信息瓶颈的优化目标为:证明如下,由于y是离散变量,那么H(y)≥0,I(y,z)有用r(z)近似边际分布p(z),因此,I(x,z)有综上所述,可得信息瓶颈目标的变分下界:证毕。通常,为了方便优化,将r(z)设置为一个固定的分布,这相当于变分自编码器中z的先验分布p(z)。在这种情况下,变分信息瓶颈与变分编码器-解码器十分相似,除了前者近似的是后验分布p(z|x),而后者近似后验分布p(z|x,y)。3)多任务学习(Multi-tasklearning)单任务学习可能会忽略一些相关任务中科恩那个提升目标任务的潜在星系,通过在不同任务之间进行一定程度上的参数共享,可能会使目标任务的泛化性能更好,因此引入多任务学习。多任务学习通常具有多个损失函数。参数共享机制分为两种:硬参数共享和软参数共享。硬参数共享指在所有任务中共享一些参数,在特定任务层使用自己独有的参数。相对于不共享参数,这种方法过拟合的可能性更低,过拟合的几率与任务数量呈线性关系。软参数共享指每个任务都有自己的参数,但增加约束使不同任务的参数之间的差异尽可能小,用来表达相似性,常用的约束方法有L2,tracenorm等。目前,硬参数共享是多任务学习的主流方法。如何平衡多任务学习的多个损失函数是一个问题,目前尚未形成有效的、有完备理论基础的方法。4)神经机器翻译(NeuralMachineTranslation)神经机器翻译指利用神经网络来实现的端到端机器翻译系统。神经机器翻译系统主要涉及两大基本技术:编码器-解码器框架和注意力机制。编码器-解码器框架如图3所示,其中<EOS>表示句子的终止符,w表示开始符。在<EOS>-W的左侧为编码器,右侧为解码器。A,B,C,<EOS>是源语言的一句句子,W,X,Y,Z,<EOS>代表目标语言的一句句子。图中的每一个框代表一个展开的循环神经网络细胞(也可以推广到卷积神经网络、Transformer神经网络等)。假设源语言句子为s=[s1,s2,...,sm],目标语言句子为t=[t1,t2,...,tn],已知目标语言句子的前i-1个单词,编码器-解码器框架建模的是p(ti|ti-1,...,t1,s),而一般语言模型建模的是p(ti|ti-1,...,t1),因此编码器-解码器框架将对源语言的语言理解和目标语言的语言模型结合到了一起。另外,该框架可以结合外部语料,具有良好的可扩展性,且灵活性很强,可以应用到图像标注、语音识别等任务中。引入注意力机制是为了解决由解码器引入的过分信息压缩的问题。在机器翻译任务中,注意力机制是加入到编码器和解码器之间的,如图4所示,图中的GPU表示不同神经网络层的计算设备。编码器先将编码后的信息输入注意力机制,注意力机制再将处理过的编码传递给解码器。注意力机制可以视作对源码不同位置编码的加权平均,一般情况下,其数学形式如下:ai=f(ci,ht)=tanh(Wc[ct;ht])其中ht和分别表示解码器和编码器某个位置的状态,αts表示注意力权本文档来自技高网...

【技术保护点】
1.一种基于变分推理和多任务学习的多模态机器翻译方法,其特征在于,该方法包括如下步骤:/n步骤一:建立包含图像和文本的多模态数据集/n所述多模态数据集格式为:翻译源语言和目标语言句子对,图像数据和对应的描述该图像的目标语言文本;/n步骤二:确定用于机器翻译的模型/n采用变分多模态机器翻译模型;该模型采用变分编码器-解码器框架,将源语言文本转换为词嵌入,输入双向LSTM编码器提取特征,图像经过VGG-16网络和一个全连接层提取特征,再将文本特征和图像特征分别输入一个伯努利变分层,将变分层的输出合并后输入一个批规范化层后得到潜在语义的分布,在这个分布中采样得到潜在语义编码,同时在双向RNN编码器上加入attention机制,将潜在语义编码和attention向量输入RNN解码器中得到目标语言译文的概率分布;/n步骤三:确定变分多模态机器翻译模型的优化目标/n变分多模态机器翻译模型建立在文本-文本、图像-文本的多任务学习上,每个子任务都有一个优化目标,子任务的目标函数具有相同的数学形式,整体优化目标是所有子任务目标函数的和;单个子任务的目标函数包括对数似然和一个约束伯努利变分后验和伯努利先验的KL散度项;所述模型的优化目标,以如下公式描述:/n...

【技术特征摘要】
1.一种基于变分推理和多任务学习的多模态机器翻译方法,其特征在于,该方法包括如下步骤:
步骤一:建立包含图像和文本的多模态数据集
所述多模态数据集格式为:翻译源语言和目标语言句子对,图像数据和对应的描述该图像的目标语言文本;
步骤二:确定用于机器翻译的模型
采用变分多模态机器翻译模型;该模型采用变分编码器-解码器框架,将源语言文本转换为词嵌入,输入双向LSTM编码器提取特征,图像经过VGG-16网络和一个全连接层提取特征,再将文本特征和图像特征分别输入一个伯努利变分层,将变分层的输出合并后输入一个批规范化层后得到潜在语义的分布,在这个分布中采样得到潜在语义编码,同时在双向RNN编码器上加入attention机制,将潜在语义编码和attention向量输入RNN解码器中得到目标语言译文的概率分布;
步骤三:确定变分多模态机器翻译模型的优化目标
变分多模态机器翻译模型建立在文本-文本、图像-文本的多任务学习上,每个子任务都有一个优化目标,子任务的目标函数具有相同的数学形式,整体优化目标是所有子任务目标函数的和;单个子任务的目标函数包括对数似然和一个约束伯努利变分后验和伯努利先验的KL散度项;所述模型的优化目标,以如下公式描述:



总共有N个模态,对应于N个子任务,xi表示其中第i种模态数据,y代表输出数据,即译文,而β是一个超参数,代表KL散度约束项的拉格朗日乘子;目标的第一项即N个子任务的对数似然之和,采用图像-文本以及文本-文本两个子任务;目标的第二项是每种模态xi语义的变分后验分布q(z|xi)与先验分布r(z)的KL散度约束项之和,先验与后验均采用伯努利分布的形式;
步骤四:训练变分多模态机器翻译模型
采用重参数化技巧计算目标函数关于变分分布参数的梯度,通过重参数化技巧,将目标函数写成关于一个已知分布期望的形式,采用Adam算法优化模型的目标函数;具体训练包括如下步骤:
步骤a1:使用基于均匀分布的xaiver初始化方法,初始化神经网络的参数;
步骤a2:设置β、γ等超参数,batchsize,最大迭代次数;
步骤a3:设置Adam优化器的学习率等超参数,使用Adam算法更新神经网络的参数;
步骤a4:设置早停机制,即Earlystop机制,以BLEU得分为标准,当验证集的BLEU分数持续下降1000步迭代或当训练达到最大迭代次数后,中止模型的训练;
步骤五:训练完毕后,进行模型推理,即预测机器译文
深度神经网络解码器通过目标句子的上一个词预测下一个词的概率分布;以最大似然为准则求最...

【专利技术属性】
技术研发人员:孙仕亮刘啸赵静张楠
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1