序列转换神经网络制造技术

技术编号:22334423 阅读:28 留言:0更新日期:2019-10-19 13:05
用于从输入序列生成目标序列的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。一方面,该方法包括维护当前假设的集合,其中每个当前假设包括输入前缀和输出前缀。对于输入前缀和输出前缀长度的每个可能的组合,该方法扩展任何可以达到可能的组合的当前假设,以为每个这样的当前假设生成相应扩展假设;使用直接模型为每个扩展假设确定相应直接评分;根据直接评分确定第一数量的最高评分假设;使用噪声信道模型重新评分第一数量的最高评分假设,以生成数量减少的假设;以及将数量减少的假设添加到当前假设的集合中。

【技术实现步骤摘要】
【国外来华专利技术】序列转换神经网络相关申请的交叉引用本申请要求2016年11月4日提交的美国临时申请序列号62/418,170的优先权。在先申请的公开被认为是本申请的公开的一部分,并通过引用结合于此。
本说明书涉及使用神经网络生成输入序列的表示。
技术介绍
许多数据处理任务包括将有序的输入序列转换成有序的输出序列。例如,机器翻译系统将一种语言的输入单词序列翻译成另一种语言的单词序列。作为另一个示例,发音系统将字素的输入序列转换成音素的目标序列。
技术实现思路
本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的序列转换系统。序列转换系统可以被配置为将输入序列映射到目标序列。例如,序列转换系统可以通过将源自然语言中的文本序列映射到目标自然语言中的翻译文本序列来实施机器翻译。自然语言处理领域中的其他应用包括文档概括,其中输入包括文档,输出包括较短的摘要;解析,其中输入包括句子,输出包括(线性化的)解析树;发音辅助,其中输入包括字素序列,输出包括音素序列;以及拼写校正,其中输入包括拼写错误的单词,输出包括预期单词。序列转换系统具有许多其他应用,例如语音识别,其中输入包括频谱系数或波形的编码,输出包括文本;文本到语音的转换,其中输入包括与文本应该如何发音相关联的语言特征的编码,输出包括波形;代码生成,其中输入包括算法的文本描述,输出包括程序;以及蛋白质二级结构预测,其中输入包括氨基酸序列,输出可以是编码二级结构类型的单热矢量。所描述的序列转换系统通过迭代构建当前假设的集合将输入序列映射到目标序列。每个假设都有输入前缀和对应的目标前缀。在每次迭代中,序列转换系统确定扩展假设的集合,该扩展假设的集合扩展当前假设的集合中的假设。序列转换系统首先通过直接评分模型对这些扩展假设评分,并且根据直接模型标识最高评分假设的第一子集。序列转换系统通过噪声信道评分模型对扩展假设的第一子集重新评分,并且根据噪声评分信道模型从第一子集标识最高评分假设的第二子集。序列转换系统将扩展假设的第二子集添加到当前假设的集合中。当序列转换系统确定假设的当前集合中没有一个是用于进一步扩展的候选时,序列转换系统从假设的当前集合中选择一个假设,并且对应于所选择的假设的目标前缀被指定为目标序列。根据第一方面,提供了用于从输入序列生成目标序列的序列转换系统和计算机实施的方法。该方法/系统被配置为维护当前假设的集合。每个当前假设可以包括覆盖输入序列中的相应第一数量i个输入的输入前缀。因此,当前假设可以将i个标记(token)作为输入;这些可以包括输入前缀。这里,标记可以是表示输入序列的元素的数据项,在一些应用中是单词或单词的部分。当前假设还可以具有相应长度j的输出或目标前缀,即它可以具有相关联的j输出序列标记。因此,给定i个输入前缀的标记,假设可以包括长度为j的候选预测目标前缀。每个当前假设还可以具有相应评分,更具体地是从模型生成的评分,该模型例如基于目标和/或输入前缀来对假设的可能性进行建模。该模型可以实现为一个或多个神经网络,典型地包括至少一个递归神经网络,诸如LSTM网络。假设可以实现为由i和j索引的数据项,其存储表示假设的可能性的数据;因此,当前假设的集合可以实现为矩阵。然后,该方法可以针对多个当前假设中的每一个执行多个动作,更具体地,针对输入数量i和目标前缀长度j的多个可能的组合中的每一个,例如针对输入数量i和假设长度j的每个可能的组合。这些动作可以包括扩展当前假设,以为每个这样的当前假设生成相应的扩展假设。更具体地,可以扩展可以达到可能的组合的任何当前假设;可以达到可能的组合的假设可以是具有目标前缀<=j并且具有输入数量<=i的假设。扩展假设可以是由一个目标标记扩展的假设,其可以但不必涉及通过一个或多个输入标记扩展输入前缀。因此,扩展假设可以包括使用假设来生成目标前缀的另一个标记。然后,该方法可以使用第一或直接模型来为每个扩展假设确定相应的第一或直接评分。例如,直接评分可以表示给定输入前缀的目标前缀的概率。该方法还可以根据直接评分确定第一数量的最高评分假设。优选地,该方法还使用噪声信道模型重新评分这些最高评分假设,以生成数量减少的假设。然后,该方法可以将数量减少的假设添加到当前假设的集合中,并且将每个假设与由重新评分生成的对应的评分相关联。这种方法便于使用噪声信道模型,这反过来可以提高性能并便于训练,如稍后所述。在相关方面,提供了一种根据输入序列生成目标序列的方法,该目标序列包括在多个输出时间步的每一个处的相应输出,该输入序列包括在多个输入时间步的每一个处的相应输入。该方法可以包括维护数据(i)标识多个当前假设,每个当前假设覆盖输入序列中的相应的第一数量i个输入,并且与相应长度为j的输出假设前缀相对应,以及(ii)对每个当前假设的相应模型评分。该方法还可以包括,对于输入数量i和假设长度j的每个可能的组合:通过考虑输入序列中的附加输入来扩展可能达到该可能的组合的任何当前假设,以为每个这样的当前假设生成相应的扩展假设;以及使用辅助直接模型来为每个扩展假设确定相应的直接评分。然后,该方法还可以包括根据直接评分确定第一数量的最高评分假设;使用噪声信道模型重新评分第一数量的最高评分假设,以生成数量减少的假设;以及维护数量减少的假设,并将每一个假设与由重新评分生成的对应的评分相关联,以便进一步扩展。在一些实施方式中,噪声信道模型包括生成以目标前缀为条件的输入前缀的可能性的信道模型,以及生成目标前缀的可能性的源模型。因此,信道模型可以表征提议的目标前缀解释输入前缀的程度。源模型可以提供表征提议的目标前缀序列是否完整(well-formed)的先验概率。如稍后所述,这降低了输出忽略支持固有高概率输出序列的输入数据的风险。另外,可以从不成对的样本中估计源模型,这有助于训练。在一些实施方式中,源模型是语言模型,具体是生成以目标序列前缀中的前一个标记为条件的目标序列前缀中的最后一个标记的可能性的语言模型。在一些实施方式中,信道模型是分段到分段神经转换(SegmenttoSegmentNeuralTransduction,SSNT)模型;稍后将提供其细节。更通常地,信道模型和直接模型中的一个或两者,可以包括诸如LSTM网络的递归神经网络。可以用各自的递归神经网络编码输入前缀和目标前缀,以从模型中确定各自的概率。可以使用成对的输入和输出序列样本来训练这些模型。广义而言,该方法的一些实施方式在编码输入序列的连续部分和解码输出标记之间交替。当前假设的集合可以用于生成目标序列,具体是通过选择当前假设之一,例如具有最高评分的假设,然后将所选择的假设的目标前缀作为目标序列。因此,在一些实施方式中,系统还被配置为:确定当前假设的集合是完整的;并且作为响应,将具有最高评分并且对应的输入前缀是整个输入序列的假设作为输入序列的目标序列输出。在一些实施方式中,直接模型生成以输入前缀为条件的目标前缀的概率。在一些实施方式中,重新评分第一数量的最高评分假设包括使用组合模型重新评分第一数量的最高评分假设,并且其中组合模型基于直接模型、噪声信道模型和目标前缀的长度来生成假设的评分。在一些实施方式中,组合模型为假设生成的评分是直接模型为假设生成的评分的对数、信道模型为假设生成的可本文档来自技高网...

【技术保护点】
1.一种从输入序列生成目标序列的计算机实施的方法,所述方法包括:维护当前假设的集合,其中每个当前假设包括输入前缀和相应长度为j的目标前缀,所述输入前缀覆盖所述输入序列中的相应的第一数量i个输入,并且其中每个当前假设具有相应的模型评分;以及对于输入数量i和输出前缀长度j的多个可能的组合中的每一个:通过对一个或多个当前假设中的每一个,将当前假设的目标前缀扩展一个目标标记并且不扩展所述输入前缀或者将所述输入前缀扩展一个或多个输入标记来从当前假设的集合中扩展一个或多个当前假设以达到所述可能的组合,以生成所述当前假设的扩展假设;以及使用直接模型确定每个扩展假设的相应的直接评分;根据所述直接评分确定第一数量的最高评分假设;使用噪声信道模型对所述第一数量的最高评分假设重新评分,以生成数量减少的假设;以及将所述数量减少的假设添加到当前假设的集合并将每个假设与由重新评分所生成的对应的评分相关联。

【技术特征摘要】
【国外来华专利技术】2016.11.04 US 62/418,1701.一种从输入序列生成目标序列的计算机实施的方法,所述方法包括:维护当前假设的集合,其中每个当前假设包括输入前缀和相应长度为j的目标前缀,所述输入前缀覆盖所述输入序列中的相应的第一数量i个输入,并且其中每个当前假设具有相应的模型评分;以及对于输入数量i和输出前缀长度j的多个可能的组合中的每一个:通过对一个或多个当前假设中的每一个,将当前假设的目标前缀扩展一个目标标记并且不扩展所述输入前缀或者将所述输入前缀扩展一个或多个输入标记来从当前假设的集合中扩展一个或多个当前假设以达到所述可能的组合,以生成所述当前假设的扩展假设;以及使用直接模型确定每个扩展假设的相应的直接评分;根据所述直接评分确定第一数量的最高评分假设;使用噪声信道模型对所述第一数量的最高评分假设重新评分,以生成数量减少的假设;以及将所述数量减少的假设添加到当前假设的集合并将每个假设与由重新评分所生成的对应的评分相关联。2.如权利要求1所述的方法,其中,扩展所述当前假设包括扩展能够达到所述可能的组合的任何当前假设,以为每个这样的当前假设生成相应的扩展假设。3.如权利要求1或2所述的方法,其中,所述噪声信道模型包括:生成以目标前缀为条件的输入前缀的可能性的信道模型;以及生成目标前缀的可能性的源模型。4.如权利要求3所述的方法,其中,所述源模型是以所述目标序列中的在前的标记为条件生成目标序列中的最后的标记的可能性的语言模型。5.如权利要求3或4中任一项所述的方法,其中,所述信道模型是分段到分段神经转换(SSNT)模型。6.如权利要求1-5中任一项所述的方法,其中,所述方法还包括:确定当前假设的集合是完整的;以及作为响应,将具有最高评分并且对应的输入前缀是整个输入序列的假设作为所述输入序列的所述目标序列输出。7.如前述权利要求中任一项所述的方法,其中,所述直接模型生成以输入前缀为条件的目标前缀的概率。8.如从属于权利要求3时的权利要求3-7中任一项所述的方法,其中对所述第一数量的最高评分假设重新评分包括使用组合模型对所述第一数量的最高评分假设重新评分,并且其中所述组合模型基于所述直接模型、所述噪声信道模型和目标前缀的长度为假设生成评分。9.如权利要求8所述的方法,其中,所述组合模型为假设生成的评分是所述直接模型为假设生成的评分的对数、所述信道模型为假设生成的可能性的对数、所述源模型为假设生成的可能性的对数以及假设的目标前缀的长度的加权线性组合。10.如权利要求9所述的方法,其中,使用从训练数据集保存的开发数据来调整所述加权线性组合的权重。11.如从属于权利要求3时的权...

【专利技术属性】
技术研发人员:L于CJ戴尔T科西斯基P布伦索姆
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1