用于端到端语音识别的极深卷积神经网络制造技术

技术编号:21459596 阅读:30 留言:0更新日期:2019-06-26 06:45
一种语音识别神经网络系统,包括编码器神经网络和解码器神经网络。编码器神经网络根据表示话语的输入声学序列生成编码序列。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示,编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示,并且时间减少的时间步的数量小于输入时间步的数量。编码器神经网络包括时间减少子网、卷积LSTM子网和网络中网络子网。解码器神经网络接收编码序列和处理编码序列以对于输出序列顺序中的每个位置生成一组子串分数,该组子串分数包括对于一组子串中每个子串的相应子串分数。

【技术实现步骤摘要】
【国外来华专利技术】用于端到端语音识别的极深卷积神经网络相关申请的交叉引用本申请要求2016年10月10日提交的美国临时申请序列号62/406,345的优先权。该在先申请的公开被认为是本申请的公开的一部分并且通过引用并入在本申请的公开中。
技术介绍
本说明书涉及使用神经网络的语音识别。语音识别系统接收声学序列并生成由声学序列表示的话语的转录(transcription)。一些语音识别系统包括发音系统、声学建模系统和语言模型。声学建模系统生成声学序列的音素表示,发音系统根据音素表示生成声学序列的字素表示,语言模型根据字素表示生成由声学序列表示的话语的转录。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的语音识别系统。语音识别包括编码器神经网络,该编码器神经网络被配置为根据输入声学序列生成编码序列。输入声学序列表示话语。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示。编码序列包括在多个时间减少的时间步(timereducedtimestep)中的每一个处的相应编码表示。时间减少的时间步的数量小于输入时间步的数量。编码器神经网络包括时间减少子网,该时间减少子网被配置为处理输入声学序列以生成简化表示序列,该简化表示序列包括在多个时间减少的时间步中的每一个处的相应简化表示。编码器神经网络还包括卷积LSTM子网,该卷积LSTM子网被配置为,对于每个时间减少的时间步,在时间减少的时间步处处理简化表示以生成对于时间步的卷积LSTM输出。编码器神经网络还包括网络中网络子网,该网络中网络子网被配置为,对于每个时间减少的时间步,在时间减少的时间步处处理卷积LSTM输出以生成对于时间减少的时间步的编码表示。语音识别系统还包括解码器神经网络,该解码器神经网络被配置为接收编码序列并处理编码序列以,对于输出序列顺序中的每个位置生成一组子串分数,该组子串分数包括一组子串中的每个子串的相应子串分数。可以实施本说明书中描述的主题的具体实施例,以便实现以下优点中的一个或多个。通过使用如本说明书中描述的编码器神经网络生成接收的声学序列的编码表示,可以改进包括编码器神经网络的语音识别神经网络的性能。具体地,本说明书中描述的编码器神经网络使用更多的非线性和表达力来增加处理深度,同时保持编码器神经网络的参数的数量可管理,实际上增加了每个参数的计算量。也就是说,编码器神经网络以有效的方式增加处理深度以引起改进的性能并保持合理的计算足迹(computationalfootprint),即,不需要过多的处理资源和存储器来存储语音识别神经网络或来使用神经网络以识别输入语音。在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。附图说明图1示出了示例语音识别系统。图2示出了编码器神经网络的示例架构。图3是用于生成表示由输入声学序列表示的话语的转录的子串序列的示例过程的流程图。在各个附图中相同的附图编号和标记指示相同的元素。具体实施方式图1示出了示例语音识别系统100。语音识别系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统、组件和技术。语音识别系统100获得输入声学序列并处理输入声学序列以生成子串序列。每个子串序列是由对应的输入声学序列表示的话语的转录。例如,语音识别系统100可以获得输入声学序列102并生成对应的子串序列116,该子串序列116是由输入声学序列102表示的话语的转录。输入声学序列102可以包括多帧音频数据序列,该多帧音频数据序列是话语的数字表示,例如连续的数据流。多帧音频数据序列可以对应于第一组时间步,例如,其中每帧音频数据与10毫秒的音频流数据相关联。多帧音频数据序列中的每帧音频数据可以包括表征对应的时间步处的话语的帧的特征值。子串序列116可以包括作为由输入声学序列102表示的话语的转录的子串序列。子串可以包括一个或多个字符。例如,一组子串可以是包括字母的字母表的字符集。通常因为字母表示口语自然语言中的音素,所以字母表是一组标准字母,用于书写一种或多种自然语言。例如,字母表可以是英语字母表。字符集还可以包括阿拉伯数字、空格字符、逗号字符、句点字符、省略字符和未知字符。在另一个示例中,一组子串可以包括单词片段,即部分单词、单词或两者。为了生成输入声学序列的子串序列,语音识别系统100实施基于注意的序列对序列(sequencetosequence,seq2seq)模型,该模型已经被训练为将输入声学序列转录成子串序列。例如,假设音频帧的输入声学序列102被表示为x=(x1,...,xT),并且子串的输出子串序列116被表示为y=(y1,...,ys),则该模型对先前生成的子串y<i和输入序列x使用条件分布来确定输出子串序列中的每个子串yi。使用概率链规则计算整个输出子串序列的概率:模型包括两个子模块,声学模型编码器,例如,编码器神经网络104;和基于注意的字符解码器,例如解码器神经网络114。编码器神经网络104被配置为处理输入声学序列102并生成输入声学序列102的替代表示。替代表示可以包括对应于第二组时间步的多帧音频数据的编码序列112。在一些实施方式中,编码序列112是输入声学序列102的高级(highlevel)表示,即,编码序列112中的第二组时间步小于输入声学序列102中的第一组时间步。即,编码器神经网络104可以将原始输入序列x转换为高级表示:h=(h1,...,hU)withU≤T.(2)为了生成输入声学序列102的高级表示,编码器神经网络104包括时间减少子网106、卷积长短期存储器(convolutionallongshort-termmemory,LSTM)子网108和网络中网络子网(network-in-networksubnetwork)110。NiN(network-in-network,网络中网络)子网110通常包括多个双向LSTM神经网络层。BLSTM神经网络层是具有一个或多个LSTM存储器块并且基于元素的过去和未来环境来预测或标记序列的每个元素的神经网络层。可以用于处理声学序列的示例BLSTM神经网络在“HybridSpeechRecognitionwithBidirectionalLSTM”,AlexGraves,NavdeepJaitly和Abdel-rahmanMohamed,自动语音识别和理解研讨会,2013,中被更详细地描述了。时间减少子网106包括多个残差块,其中每个块包括由至少批量归一化(batchnormalization)层分离的卷积LSTM神经网络层和卷积神经网络层。时间减少子网106包括多个时间减少块,其中每个块包括深度级联层和时间减少卷积层。参考图2更详细地描述编码器神经网络104的架构。在编码器神经网络104已经生成编码序列112之后,解码器神经网络114被配置为处理编码序列112并根据编码序列112生成子串序列116。具体地,解码器神经网络114被配置为,对于输出序列顺序中的每个位置,生成一组子串分数,该组子串分数包括对于子串序列116中每个子串的相应子串分数。对于每个子串的相应子串分数定义了该子串表示由本文档来自技高网...

【技术保护点】
1.一种由一个或多个计算机实施的语音识别神经网络系统,包括:编码器神经网络,被配置为根据输入声学序列生成编码序列,所述输入声学序列表示话语,所述输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示,所述编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示,所述时间减少的时间步的数量少于所述输入时间步的数量,并且所述编码器神经网络包括:时间减少子网,被配置为处理所述输入声学序列以生成包括在多个时间减少的时间步中的每一个处的相应简化表示的简化表示序列;卷积LSTM子网,被配置为,对于每个时间减少的时间步,在所述时间减少的时间步处处理所述简化表示,以生成对于所述时间步的卷积LSTM输出;和网络中网络子网,被配置为,对于每个时间减少的时间步,在所述时间减少的时间步处处理所述卷积LSTM输出以生成对于所述时间减少的时间步的所述编码表示;和解码器神经网络,被配置为接收所述编码序列并且处理所述编码序列,以对于输出序列顺序中的每个位置,生成一组子串分数,所述一组子串分数包括对于一组子串中每个子串的相应子串分数。

【技术特征摘要】
【国外来华专利技术】2016.10.10 US 62/406,3451.一种由一个或多个计算机实施的语音识别神经网络系统,包括:编码器神经网络,被配置为根据输入声学序列生成编码序列,所述输入声学序列表示话语,所述输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示,所述编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示,所述时间减少的时间步的数量少于所述输入时间步的数量,并且所述编码器神经网络包括:时间减少子网,被配置为处理所述输入声学序列以生成包括在多个时间减少的时间步中的每一个处的相应简化表示的简化表示序列;卷积LSTM子网,被配置为,对于每个时间减少的时间步,在所述时间减少的时间步处处理所述简化表示,以生成对于所述时间步的卷积LSTM输出;和网络中网络子网,被配置为,对于每个时间减少的时间步,在所述时间减少的时间步处处理所述卷积LSTM输出以生成对于所述时间减少的时间步的所述编码表示;和解码器神经网络,被配置为接收所述编码序列并且处理所述编码序列,以对于输出序列顺序中的每个位置,生成一组子串分数,所述一组子串分数包括对于一组子串中每个子串的相应子串分数。2.如权利要求1所述的系统,其中,所述时间减少子网包括:第一时间减少块,包括:第一深度级联层,被配置为在所述输入声学序列中以预定间隔在多个相邻输入时间步处深度级联声学特征表示,以生成第一级联表示序列;和第一时间减少卷积层,被配置为处理所述第一级联表示序列以生成初始简化表示序列,所述初始简化表示序列包括在多个初始时间减少的时间步中的每一个处的相应初始简化表示;和第二时间减少块,包括:第二深度级联层,被配置为在所述初始简化序列中以预定间隔在多个相邻初始时间减少的时间步处深度级联初始简化表示,以生成第二级联表示序列;和第二时间减少卷积层,被配置为处理所述第二级联表示序列以生成包括在多个时间减少的时间步中的每一个处的简化表示的所述简化表示序列。3.如权利要求...

【专利技术属性】
技术研发人员:N杰伊特利张羽W陈
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1