序列转换方法及装置制造方法及图纸

技术编号:17406808 阅读:33 留言:0更新日期:2018-03-07 04:43
本发明专利技术公开了序列转换方法及装置,其中序列转换方法包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。使用本发明专利技术,能够在进行序列转换时提高目标端序列相对于源端序列的忠诚度。

Sequence conversion method and device

The invention discloses a device and sequence conversion method, the sequence conversion method includes: obtaining the source sequence; obtain reference context vector; the source sequence into the source context vector; according to the reference context vector and the source context vector to obtain the weight vector; using the weight vector of the the source context vector and the reference context vectors are weighted; reference context vector prediction using weighted source context vector and weighted with the source context vector corresponding to the target context; according to the target context vector target sequence. The use of the invention can improve the loyalty of target sequences relative to the source sequence in the sequence conversion.

【技术实现步骤摘要】
序列转换方法及装置
本专利技术涉及计算机技术,具体涉及一种序列转换方法及装置。
技术介绍
随着计算机技术的飞速发展,深度学习的研究也取得了较大进展,涉及自然语言处理的序列到序列学习(sequence-to-sequencelearning)也取得了突破性的进展,序列到序列学习是一种将源端序列映射到目标端序列的学习过程。序列到序列学习的成果主要用于序列转换,典型的序列转换的应用场景包括机器翻译(MachineTranslation)、语音识别(speechrecognition)、对话系统(dialogsystemorconversationalagent)、自动摘要(automaticsummarization)、自动问答(questionanswering)和图像说明文字生成(imagecaptiongeneration)等等。一种典型的序列转换方法包括两个阶段:编码阶段和解码阶段。其中,编码阶段一般会通过循环神经网络(RecurrentNeuralNetwork,RNN)将源端序列转化为向量(也称为源端上下文向量),可以使用注意力(attention)机制,每次选择源端序列的一部分转化为源端上下文向量,即源端序列会被转化为多个源端上下文向量(即为解码阶段每个目标端词生成对应的源端上下文向量)。解码阶段通过每次生成一个词的方式生成目标端序列:在每一步中,解码器根据编码阶段获得的当前源端上下文向量,解码器的目标端上下文向量(包括上一步的解码器中间状态和上一步生成的目标端词)来计算当前步骤的解码器中间状态,根据该中间状态及源端上下文向量预测当前步骤的目标端词,新生成的解码器中间状态及目标端词即为当前时刻新的目标端上下文向量。在序列转换方法应用到自然语言处理时,由于源端序列和目标端序列的长度都是不固定的,因此在解码阶段也可以使用RNN进行处理。由于RNN在预测过程中主要参考的还是已经预测获得的目标端上下文向量,而仅仅将源端上下文向量作为一个额外的输入,因此导致当前源端上下文向量对应的信息可能不会正确地传递到对应的目标端上下文向量,从而导致预测获得的目标端序列不能忠诚地体现源端序列的信息。
技术实现思路
本专利技术实施例提供了序列转换方法及装置,能够在进行序列转换时提高目标端序列相对于源端序列的忠诚度。本专利技术的第一方面提供了一种序列转换方法,包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。结合第一方面,在第一方面的第一种实施方式中,在所述目标端上下文向量是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是初始目标端上下文向量;其中,在一种实施方式中,初始目标端上下文向量中每一个元素的值均为0,以避免对当前源端上下文向量的预测造成干扰;在所述目标端上下文向量不是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是已经获得的目标端上下文向量。在一中实施方式中,该已经获得的目标端上下文向量可以是已经获得的上一个目标端上下文向量。使用已经获得的目标端上下文向量可以进一步提高目标端序列相对于源端序列的忠诚度,以及提高目标端序列的流畅度。结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述方法还包括:使用与所述源端上下文向量对应的目标端上下文向量对所述参考上下文向量进行更新,从而可以使得该目标端上下文向量能够对下一个目标端上下文向量的预测产生影响,进一步提高目标端序列相对于源端序列的忠诚度,以及提高目标端序列的流畅度。结合第一方面,第一方面的第一种实施方式和第一方面的第二种实施方式中的至少一种,在第一方面的第三种实施方式中,所述根据所述参考上下文向量和所述源端上下文向量获取权重向量包括:通过如下函数获得所述权重向量:zi=σ(Wze(yi-1)+Uzsi-1+Czci)其中,zi是权重向量,σ是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,ci是所述源端上下文向量,Wz,Uz和Cz是激活函数σ的模块参数,i表示向量的序号。其中,激活函数σ可以为神经元使用的sigmoid函数。结合第一方面的第三种实施方式,在第一方面的第四种实施方式中,所述模块参数Wz,Uz和Cz通过从训练数据中学习获得;具体地,可以通过最大化训练数据中目标端序列的似然值获得,其中,训练数据的一种具体表现形式可以是训练序列对(TrainingSequencePairs)。结合第一方面的第三种实施方式或第四种实施方式,在第一方面的第五种实施方式中,所述激活函数为sigmoid函数sigmoid函数是神经网络/神经元常用的函数。结合第一方面的第五种实施方式,在第一方面的第六种实施方式中,所述模块参数Wz,Uz和Cz通过最大化训练序列对中目标端序列的似然值获得,具体通过如下训练函数训练获得:其中,N是训练序列集合中训练序列对的数量,Xn是训练序列对中的源端序列,Yn是训练序列对中的目标端序列,P是序列转换装置的参数,所述序列转换装置用于执行所述训练函数,具体地,该序列转换装置具体可以为神经元。结合第一方面,以及第一方面的第一种实施方式至第一方面的第六种实施方式中的至少一种,在第一方面的第七种实施方式中,所述权重向量的维度与所述目标端上下文向量的维度相同。在本专利技术的一些实施方式中,权重向量的维度也可以与源端上下文向量的维度相同;在另一些实施方式中,权重向量的维度也可以与源端上下文向量的维度和目标端上下文向量的维度均不相同。在权重向量的维度与源端上下文向量/目标端上下文向量的维度不相同时,可以通过矩阵转化的方式,使得权重向量,源端上下文向量和参考上下文向量的维度一致后再进行加权,从而可以确保源端上下文向量和参考上下文向量中的每一个元素都会有对应的权重,确保最终的预测结果的准确性。结合第一方面,以及第一方面的第一种实施方式至第一方面的第七种实施方式中的至少一种,在第一方面的第八种实施方式中,所述权重向量中每一个元素均为大于0且小于1的实数。结合第一方面,以及第一方面的第一种实施方式至第一方面的第八种实施方式中的至少一种,在第一方面的第九种实施方式中,所述使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量包括:通过如下函数预测获得所述与所述源端上下文向量对应的目标端上下文向量:si=f((1-zi){We(yi-1)+Usi-1}+ziCci)其中,si是与所述源端上下文向量对应的目标端上下文向量,f是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,zi是所述权重向量,ci是所述源端上下文向量,W,U和C是激活函数f的模块参数,i表示向量的序号。其中,激活函数f可以为神经元所使用的sigmoid函数。结合第一方面,以及第一方面的第一种实施方式至第一方面的第九种实施方式中的至少一种,在第一方面的第十种实本文档来自技高网
...
序列转换方法及装置

【技术保护点】
一种序列转换方法,其特征在于,包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。

【技术特征摘要】
1.一种序列转换方法,其特征在于,包括:获取源端序列;获取参考上下文向量;将所述源端序列转换为源端上下文向量;根据所述参考上下文向量和所述源端上下文向量获取权重向量;使用所述权重向量对所述源端上下文向量和所述参考上下文向量进行加权;使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量;根据所述目标端上下文向量获取目标端序列。2.根据权利要求1所述的方法,其特征在于,在所述目标端上下文向量是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是初始目标端上下文向量;在所述目标端上下文向量不是所述源端序列对应的第一个目标端上下文向量时,所述参考上下文向量是已经获得的目标端上下文向量。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:使用与所述源端上下文向量对应的目标端上下文向量对所述参考上下文向量进行更新。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述参考上下文向量和所述源端上下文向量获取权重向量包括:通过如下函数获得所述权重向量:zi=σ(Wze(yi-1)+Uzsi-1+Czci)其中,zi是权重向量,σ是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,ci是所述源端上下文向量,Wz,Uz和Cz是激活函数σ的模块参数,i表示向量的序号。5.根据权利要求4所述的方法,其特征在于,所述模块参数Wz,Uz和Cz通过从训练数据中学习获得。6.根据权利要求4或5所述的方法,其特征在于,所述激活函数为sigmoid函数7.根据权利要求6所述的方法,其特征在于,所述模块参数Wz,Uz和Cz通过最大化训练序列对中目标端序列的似然值获得,具体通过如下训练函数训练获得:其中,N是训练序列集合中训练序列对的数量,Xn是训练序列对中的源端序列,Yn是训练序列对中的目标端序列,P是序列转换装置的参数,所述序列转换装置用于执行所述训练函数。8.根据权利要求1至7任一所述的方法,其特征在于,所述权重向量的维度与所述目标端上下文向量的维度相同。9.根据权利要求1至8任一所述的方法,其特征在于,所述权重向量中每一个元素均为大于0且小于1的实数。10.根据权利要求1至9任一所述的方法,其特征在于,所述使用加权后的源端上下文向量和加权后的参考上下文向量预测与所述源端上下文向量对应的目标端上下文向量包括:通过如下函数预测获得与所述源端上下文向量对应的目标端上下文向量:si=f((1-zi){We(yi-1)+Usi-1}+ziCci)其中,si是与所述源端上下文向量对应的目标端上下文向量,f是激活函数,e(yi-1)是所述参考上下文向量中的词向量,si-1是所述参考上下文向量中的中间状态,zi是所述权重向量,ci是所述源端上下文向量,W,U和C是激活函数f的模块参数,i表示向量的序号。11.一种序列转换装置,...

【专利技术属性】
技术研发人员:涂兆鹏刘晓华吕正东李航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1