序列转换方法及装置制造方法及图纸

技术编号:17939537 阅读:28 留言:0更新日期:2018-05-15 19:59
本发明专利技术公开了序列转换方法及装置,其中序列转换方法包括:接收源端序列;将所述源端序列转换为源端向量表示序列;根据所述源端向量表示序列获取至少两个候选目标端序列,以及所述至少两个候选目标端序列中每一个候选目标端序列的翻译概率值;对所述每一个候选目标端序列的翻译概率值进行调整;根据所述每一个候选目标端序列的调整后的翻译概率值,从所述至少两个候选目标端序列中选择输出目标端序列;输出所述输出目标端序列。使用本发明专利技术,能够在进行序列转换时提高目标端序列相对于源端序列的忠诚度。

Sequence conversion method and device

The present invention discloses a sequence conversion method and a device, in which a sequence conversion method includes receiving a source end sequence, converting the source end sequence to a source end vector to represent a sequence, obtaining at least two candidate target end sequences according to the source end vector, and each of the at least two candidate target end sequences. The translation probability value of the target end sequence is selected; the translation probability value of each candidate target end sequence is adjusted; the output target sequence is selected from the at least two candidate target end sequences according to the adjusted translation probability values of each candidate target end sequence, and the output target end sequence is output. By using the invention, the loyalty of the target end sequence relative to the source sequence can be improved when the sequence is converted.

【技术实现步骤摘要】
序列转换方法及装置
本专利技术涉及计算机技术,具体涉及一种序列转换方法及装置。
技术介绍
随着计算机技术的飞速发展,深度学习的研究也取得了较大进展,涉及自然语言处理的序列到序列学习(sequence-to-sequencelearning)也取得了突破性的进展,序列到序列学习是一种将源端序列映射到目标端序列的学习过程。序列到序列学习的成果主要用于序列转换,典型的序列转换的应用场景包括机器翻译(MachineTranslation)、语音识别(speechrecognition)、对话系统(dialogsystemorconversationalagent)、自动摘要(automaticsummarization)、自动问答(questionanswering)和图像说明文字生成(imagecaptiongeneration)等等。一种典型的序列转换方法包括两个阶段:编码阶段和解码阶段。其中,编码阶段一般会通过循环神经网络(RecurrentNeuralNetwork,RNN)将源端序列转化源端向量表示序列,然后再通过注意力机制(attentionmechanism)将源端向量表示序列转换为源端上下文向量,,具体地,每次选择源端序列的一部分转化为源端上下文向量,因此源端序列可以被转化为多个源端上下文向量(从而为解码阶段的每个目标端词生成对应的源端上下文向量)。解码阶段通过每次生成一个目标端词的方式生成目标端序列:在每一步中,解码器根据编码阶段获取的当前源端上下文向量,以及上一步的解码器中间状态和上一步生成的目标端词,来计算当前的解码器中间状态,根据该当前的中间状态及源端上下文向量预测当前步骤的目标端词。在序列转换方法应用到自然语言处理时,由于源端序列和目标端序列的长度都是不固定的,因此在解码阶段也可以使用RNN进行处理。由于RNN在预测过程中主要参考的还是已经预测获取的目标端上下文向量,而仅仅将源端上下文向量作为一个额外的输入,导致当前源端上下文向量对应的信息可能不会正确地传递到对应的目标端上下文向量,存在过多的遗漏翻译(under-translation)和过度翻译(over-translation),从而导致预测获取的目标端序列不能忠诚地体现源端序列的信息。
技术实现思路
本专利技术实施例提供了序列转换方法及装置,能够在进行序列转换时提高目标端序列相对于源端序列的准确性。本专利技术的第一方面提供了一种序列转换方法,包括:接收源端序列;将所述源端序列转换为源端向量表示序列;根据所述源端向量表示序列获取至少两个候选目标端序列,以及所述至少两个候选目标端序列中每一个候选目标端序列的翻译概率值;对所述每一个候选目标端序列的翻译概率值进行调整;根据所述每一个候选目标端序列的调整后的翻译概率值,从所述至少两个候选目标端序列中选择输出目标端序列;输出所述输出目标端序列。其中,对候选目标端序列的翻译概率值进行调整时,可以直接使用预先设置好的调整因子,也可以使用预先设置的调整算法。其中,使用调整因子可以提高系统的处理效率,使用调整算法可以提高调整后的翻译概率值的准确性。其中,具体可以采用词向量化技术将源端序列转换为源端向量表示序列。结合第一方面,在一种可能的实施方式中,所述根据所述源端向量表示序列获取至少两个候选目标端序列包括:基于注意力机制根据所述源端向量表示序列获取至少两个源端上下文向量;获取所述至少两个源端上下文向量各自的解码中间状态序列;获取所述至少两个解码中间状态序列各自的候选目标端序列;所述对所述每一个候选目标端序列的翻译概率值进行调整包括:基于所述每一个候选目标端序列的解码中间状态序列对各自的翻译概率值进行调整。由于解码中间状态序列可以在一定程度上代表对应的候选目标端序列的翻译准确度,因此根据解码中间状态序列对翻译概率值的调整可以提高调整后的翻译概率值的准确性,从而提高最终的目标端序列的准确性。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述至少两个候选目标端序列包括第一候选目标端序列,所述第一候选目标端序列是所述至少两个候选目标端序列中的任意一个;所述基于所述每一个候选目标端序列的解码中间状态序列对各自的翻译概率值进行调整包括:基于所述第一候选目标端序列的解码中间状态序列获取所述第一候选目标端序列的重构概率值;基于所述第一候选目标端序列的重构概率值对所述第一候选目标端序列的翻译概率值进行调整。由于解码中间状态序列可以在一定程度上代表对应的候选目标端序列的翻译准确度,因此根据解码中间状态序列对翻译概率值的调整可以提高调整后的翻译概率值的准确性,从而提高最终的目标端序列的准确性。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述基于所述第一候选目标端序列的解码中间状态获取所述第一候选目标端序列的重构概率值包括:基于反向注意力机制获取所述第一候选目标端序列的重构概率值,所述反向注意力机制的输入是所述第一候选目标端序列的解码中间状态序列,所述反向注意力机制的输出是所述第一候选目标端序列的重构概率值。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述基于反向注意力机制获取所述第一候选目标端序列的重构概率值包括:根据如下函数获取所述第一候选目标端序列的重构概率值:其中,gR()是Softmax函数;是通过反向注意力机制总结得到的向量,通过如下的函数获取:其中,是由反向注意力机制输出的对齐概率,通过如下的函数获取:其中,ej,k是源端序列中元素的反向注意力机制得分,通过如下的函数获取:是获取重构概率值时的中间状态,通过如下的函数获取:xj是所述源端序列中的元素,J表示所述源端序列中元素的数量;si表示所述第一候选目标端序列的解码中间状态序列中的元素,I表示所述第一候选目标端序列的解码中间状态序列中元素的数量;fR是激活函数,R是重构概率值;γ1,γ2和γ3是参数。由于在获取重构概率值时,会根据解码中间状态序列重构回源端序列,而源端序列是确定的,因此可以根据重构回源端序列的具体情况获取对应的重构概率值,因此获取的重构概率值也能够体现候选目标端序列的准确性,因此根据重构概率值对翻译概率值进行调整能够确保调整后的翻译概率值的准确性,从而提高输出的目标端序列的准确性。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述参数γ1,γ2和γ3通过端到端学习算法训练获取。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述参数γ1,γ2和γ3通过如下函数训练获取:其中,θ和γ是需要训练获取的神经系统的参数,γ表示所述参数γ1,γ2或γ3,N是训练序列集合中训练序列对的数量,Xn是训练序列对中的源端序列,Yn是训练序列对中的目标端序列,sn是Xn转换成Yn时的解码中间状态序列,λ是线性插值。结合第一方面和前述的第一方面的可能的实施方式中的任意一个,在一种可能的实施方式中,所述基于所述第一候选目标端序列的重构概率值对所述第一候选目标端序列的翻译概率值进行调整包括:对所述第一候选目标端序列的翻译概率值和重构概率值使用线性插值的方式求和,以获取所述第一候选目标端序本文档来自技高网
...
序列转换方法及装置

【技术保护点】
一种序列转换方法,其特征在于,包括:接收源端序列;将所述源端序列转换为源端向量表示序列;根据所述源端向量表示序列获取至少两个候选目标端序列,以及所述至少两个候选目标端序列中每一个候选目标端序列的翻译概率值;对所述每一个候选目标端序列的翻译概率值进行调整;根据所述每一个候选目标端序列的调整后的翻译概率值,从所述至少两个候选目标端序列中选择输出目标端序列;输出所述输出目标端序列。

【技术特征摘要】
1.一种序列转换方法,其特征在于,包括:接收源端序列;将所述源端序列转换为源端向量表示序列;根据所述源端向量表示序列获取至少两个候选目标端序列,以及所述至少两个候选目标端序列中每一个候选目标端序列的翻译概率值;对所述每一个候选目标端序列的翻译概率值进行调整;根据所述每一个候选目标端序列的调整后的翻译概率值,从所述至少两个候选目标端序列中选择输出目标端序列;输出所述输出目标端序列。2.根据权利要求1所述的方法,其特征在于,所述根据所述源端向量表示序列获取至少两个候选目标端序列包括:基于注意力机制根据所述源端向量表示序列获取至少两个源端上下文向量;获取所述至少两个源端上下文向量各自的解码中间状态序列;获取所述至少两个解码中间状态序列各自的候选目标端序列;所述对所述每一个候选目标端序列的翻译概率值进行调整包括:基于所述每一个候选目标端序列的解码中间状态序列对各自的翻译概率值进行调整。3.根据权利要求2所述的方法,其特征在于,所述至少两个候选目标端序列包括第一候选目标端序列,所述第一候选目标端序列是所述至少两个候选目标端序列中的任意一个;所述基于所述每一个候选目标端序列的解码中间状态序列对各自的翻译概率值进行调整包括:基于所述第一候选目标端序列的解码中间状态序列获取所述第一候选目标端序列的重构概率值;基于所述第一候选目标端序列的重构概率值对所述第一候选目标端序列的翻译概率值进行调整。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一候选目标端序列的解码中间状态获取所述第一候选目标端序列的重构概率值包括:基于反向注意力机制获取所述第一候选目标端序列的重构概率值,所述反向注意力机制的输入是所述第一候选目标端序列的解码中间状态序列,所述反向注意力机制的输出是所述第一候选目标端序列的重构概率值。5.根据权利要求4所述的方法,其特征在于,所述基于反向注意力机制获取所述第一候选目标端序列的重构概率值包括:根据如下函数获取所述第一候选目标端序列的重构概率值:其中,gR()是Softmax函数;是通过反向注意力机制总结得到的向量,通过如下的函数获取:其中,是由反向注意力机制输出的对齐概率,通过如下的函数获取:其中,ej,k是源端序列中元素的反向注意力机制得分,通过如下的函数获取:是获取重构概率值时的中间状态,通过如下的函数获取:xj是所述源端序列中的元素,J表示所述源端序列中元素的数量;si表示所述第一候选目标端序列的解码中间状态序列中的元素,I表示所述第一候选目标端序列的解码中间状态序列中元素的数量;fR是激活函数,R是重构概率值;γ1,γ2和γ3是参数。6.根据权利要求5所述的方法,其特征在于,所述参数γ1,γ2和γ3通过端到端学习算法训练获取。7.根据权利要求6所述的方法,其特征在于,所述参数γ1,γ2和γ3通过如下函数训练获取:其中,θ和γ是需要训练获取的神经系统的参数,γ表示所述参数γ1,γ2或γ3,N是训练序列集合中训练序列对的数量,Xn是训练序列对中的源端序列,Yn是训练序列对中的目标端序列,sn是Xn转换成Yn时的解码中间状态序列,λ是线性插值。8.根据权利要求3至7任一所述的方法,其特征在于,所述基于所述第一候选目标端序列的重构概率值对所述第一候选目标端序列的翻译概率值进行调整包括:对所述第一候选目标端序列的翻译概率值和重构概率值使用线性插值的方式求和,以获取所述第一候选目标端序列的调整后的翻译概率值。9.一种序列转换装置,其特征在于,包括:接收单元,用于接收...

【专利技术属性】
技术研发人员:涂兆鹏尚利峰刘晓华李航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1