使用部分条件从输入序列生成目标序列制造技术

技术编号:37778662 阅读:21 留言:0更新日期:2023-06-09 09:09
本申请涉及使用部分条件从输入序列生成目标序列。系统可以被配置为执行各种任务,例如将记录的语音转换为表示该语音的音素的序列,将字素的输入序列转换为音素的目标序列,将一种语言的词语的输入序列翻译为另一语言的词语的对应序列,或预测一种语言(例如,语言模型)的词语的输入序列之后的词语的目标序列。在语音识别器中,RNN系统可以用于实时地将语音转换为音素的目标序列,以使得甚至在用户完全说出整个语音输入之前就可以为用户生成并呈现语音的转写。并呈现语音的转写。并呈现语音的转写。

【技术实现步骤摘要】
使用部分条件从输入序列生成目标序列
[0001]分案说明
[0002]本申请属于申请日为2016年11月11日的中国专利技术专利申请201680076447.4的分案申请。
[0003]本申请主张2015年11月12日提交的美国临时申请第62/254,687号的优先权。该在先申请的公开内容被视为本申请的公开内容的一部分并且通过引用整体并入本申请的公开内容中。


[0004]本说明书总体上涉及用于使用神经网络生成输入序列的表示的系统、方法、装置和其他技术。

技术介绍

[0005]许多数据处理任务涉及将有序的输入序列转换成有序的输出序列。例如,机器翻译系统将一种语言的词语的输入序列翻译成另一种语言的词语的序列。作为另一示例,发音系统将字素的输入序列转唤成音素的目标序列。

技术实现思路

[0006]本说明书描述了被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统。
[0007]所述系统是用于从输入序列生成目标序列的系统,所述目标序列包括在多个输出时间步中的每一个处的相应输出,所述输入序列包括在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于从输入序列生成目标序列的方法,所述目标序列包括在多个输出时间步的每一个处的相应输出,所述输入序列包括在多个输入时间步的每一个处的相应输入,其中:所述输入序列是语音序列并且所述目标序列是表示所述语音序列的音素的序列,或者所述输入序列是字素的序列并且所述目标序列是音素的序列,或者所述输入序列是一种语言的词语的序列并且所述目标序列是另一种语言的词语的对应的序列,或者所述输入序列是一种语言的词语的序列并且所述目标序列是在所述输入序列中的词语之后的词语的序列,所述方法包括:对于所述输入序列中固定数量的输入时间步的每个块:使用编码器神经网络来处理输入时间步的块中的每个输入,以生成输入的相应特征表示;在所述编码器神经网络生成表示后续块中的输入的特征表示之前:选择对于紧随在前输出时间步的一个或多个输出时间步中的每一个的相应输出,包括:使用转换器神经网络来处理(i)对于块中的输入的特征表示和(ii)在在前输出时间步处的在前输出,所述转换器神经网络已经被训练来根据输入序列的块的特征生成目标序列。2.根据权利要求1所述的方法,其中,对于所述输入序列中的初始块,在在前输出时间步处的在前输出是占位符序列开始输出。3.根据权利要求1所述的方法,其中,使用转换器神经网络来处理对于块中的输入的特征表示和在在前输出时间步处的在前输出以选择对于紧随在前输出时间步的一个或多个输出时间步中的每一个的相应输出包括:选择输出直到选择的输出是指定的块结束输出为止。4.根据权利要求3所述的方法,其中,使用转换器神经网络来处理对于块中的输入的特征表示和在在前输出时间步处的在前输出包括:使用转换器神经网络来处理对于块中的输入的特征表示和在前输出以选择对于紧随在前输出时间步的当前输出时间步的当前输出;当当前输出是指定的块结束输出时,限制以避免生成对于块的任何更多输出;以及当当前输出不是指定的块结束输出时:使用转换器神经网络来处理对于块中的输入的特征表示和当前输出以选择对于紧随当前输出时间步的下一输出时间步的下一输出。5.根据权利要求1所述的方法,其中,使用转换器神经网络来处理对于块中的输入的特征表示和在在前输出时间步处的在前输出以选择对于紧随在前输出时间步的一个或多个输出时间步中的每一个的相应输出包括:选择输出直到转换器神经网络的中间输出的指定部分指示选择的输出是块中的最后一个为止。6.根据权利要求1所述的方法,其中,所述转换器神经网络被配置为对于输入时间步的给定块并且为了选择对于给定输出时间步的输出:使用所述转换器神经网络的第一子网络来处理在紧挨着给定输出时间步的在前输出时间步处的输出和对于紧挨着给定输出时间步的在前输出时间步的在前上下文向量,以更新第一子网络的当前隐藏状态;
使用所述转换器神经网络的上下文子网络来处理第一子网络的更新的隐藏状态和对于输入时间步的给定块中的输入的特征表示,以确定当前上下文向量;使用所述转换器神经网络的第二子网络来处理当前上下文向量和第一子网络的更新的隐藏状态,以更新第二子网络的当前隐藏状态;以及使用柔性最大值层来处理第二子网络的当前隐藏状态,以生成对于可能的输出的库中的每个输出的相应分数。7.根据权利要求6所述的方法,其中,所述上下文子网络是RNN。8.一种系统,包括一个或多个计算机和存储指令的一个或多个存储装置,当由所述一个或多个计算机执行时,所述指令能够操作成使所述一个或多个计算机执行用于从输入序列生成目标序列的操作,所述目标序列包括在多个输出时间步的每一个处的相应输出,所述输入序列包括在多个输入时间步的每一个处的相应输入,其中:所述输入序列是语音序列并且所述目标序列是表示所述语音序列的音素的序列,或者所述输入序列是字素的序列并且所述目标序列是音素的序列,或者所述输入序列是一种语言的词语的序列并且所述目标序列是另一种语言的词语的对应的序列,或者所述输入序列是一种语言的词语的序列并且所述目标序列是在所述输入序列中的词语之后的词语的序列,所述操作包括:对于所述输入序列中固定数量的输入时间步的每个块:使用编码器神经网络来处理输入时间步的块中的每个输入,以生成输入的相应特征表示;在所述编码器神经网络生成表示后续块中的输入的特征表示之前:选择对于紧随在前输出时间步的一个或多个输出时间步中的每一个的相应输出,包括:使用转换器神经网络来处理(i)对于块中的输入的特征表示和(ii)在在前输出时间步处的在前输出,所述转换器神经网络已经被训练来根据输入序列的块的特征生成目标序列。9.根据权利要求8所述的系统,其中,对于所述输入序列中的初始块,在在前...

【专利技术属性】
技术研发人员:N杰特利QV勒O文雅尔斯S本吉奥I苏特斯克弗
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1