The invention discloses a device and sequence conversion method, the sequence conversion method includes: obtaining the source sequence; obtain reference context vector; the source sequence into the source context vector; according to the reference context vector and the source context vector to obtain the weight vector; using the weight vector of the the source context vector and the reference context vectors are weighted; reference context vector prediction using weighted source context vector and weighted with the source context vector corresponding to the target context; according to the target context vector target sequence. The use of the invention can improve the loyalty of target sequences relative to the source sequence in the sequence conversion.
【技术实现步骤摘要】
序列转换方法及装置
本专利技术涉及计算机技术,具体涉及一种序列转换方法及装置。
技术介绍
随着计算机技术的飞速发展,深度学习的研究也取得了较大进展,涉及自然语言处理的序列到序列学习(sequence-to-sequencelearning)也取得了突破性的进展,序列到序列学习是一种将源端序列映射到目标端序列的学习过程。序列到序列学习的成果主要用于序列转换,典型的序列转换的应用场景包括机器翻译(MachineTranslation)、语音识别(speechrecognition)、对话系统(dialogsystemorconversationalagent)、自动摘要(automaticsummarization)、自动问答(questionanswering)和图像说明文字生成(imagecaptiongeneration)等等。一种典型的序列转换方法包括两个阶段:编码阶段和解码阶段。其中,编码阶段一般会通过循环神经网络(RecurrentNeuralNetwork,RNN)将源端序列转化为向量(也称为源端上下文向量),可以使用注意力(attention)机制,每次选择源端序列的一部分转化为源端上下文向量,即源端序列会被转化为多个源端上下文向量(即为解码阶段每个目标端词生成对应的源端上下文向量)。解码阶段通过每次生成一个词的方式生成目标端序列:在每一步中,解码器根据编码阶段获得的当前源端上下文向量,解码器的目标端上下文向量(包括上一步的解码器中间状态和上一步生成的目标端词)来计算当前步骤的解码器中间状态,根据该中间状态及源端上下文向量预测当前步骤的目标端词 ...
【技术保护点】
一种序列转换方法,其特征在于,包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。
【技术特征摘要】
1.一种序列转换方法,其特征在于,包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。2.根据权利要求1所述的方法,其特征在于,在所述目标端上下文向量是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是初始目标端上下文向量;在所述目标端上下文向量不是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是已经获得的目标端上下文向量。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:使用与所述源端上下文向量对应的目标端上下文向量对所述参考上下文向量进行更新。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述参考上下文向量和所述源端上下文向量获取权重向量包括:通过如下函数获得所述权重向量:zi=σ(Wze(yi-1)+Uzsi-1+Czci)其中,zi是权重向量,σ是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,ci是所述源端上下文向量,Wz,Uz和Cz是激活函数σ的模块参数,i表示向量的序号。5.根据权利要求4所述的方法,其特征在于,所述模块参数Wz,Uz和Cz通过从训练数据中学习获得。6.根据权利要求4或5所述的方法,其特征在于,所述激活函数为sigmoid函数7.根据权利要求6所述的方法,其特征在于,所述模块参数Wz,Uz和Cz通过最大化训练序列对中目标端序列的似然值获得,具体通过如下训练函数训练获得:其中,N是训练序列集合中训练序列对的数量,Xn是训练序列对中的源端序列,Yn是训练序列对中的目标端序列,P是序列转换装置的参数,所述序列转换装置用于执行所述训练函数。8.根据权利要求1至7任一所述的方法,其特征在于,所述权重向量的维度与所述目标端上下文向量的维度相同。9.根据权利要求1至8任一所述的方法,其特征在于,所述权重向量中每一个元素均为大于0且小于1的实数。10.根据权利要求1至9任一所述的方法,其特征在于,所述使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量包括:通过如下函数预测获得与所述源端上下文向量对应的目标端上下文向量:si=f((1-zi){We(yi-1)+Usi-1}+ziCci)其中,si是与所述源端上下文向量对应的目标端上下文向量,f是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,zi是所述权重向量,ci是所述源端上下文向量,W,U和C是激活函数f的模块参数,i表示向量的序号。11.一种序列转换装置,...
【专利技术属性】
技术研发人员:涂兆鹏,刘晓华,吕正东,李航,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。