用于端到端语音识别的极深卷积神经网络制造技术

技术编号：21459596 阅读：30 留言：0更新日期：2019-06-26 06:45

一种语音识别神经网络系统，包括编码器神经网络和解码器神经网络。编码器神经网络根据表示话语的输入声学序列生成编码序列。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示，编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示，并且时间减少的时间步的数量小于输入时间步的数量。编码器神经网络包括时间减少子网、卷积LSTM子网和网络中网络子网。解码器神经网络接收编码序列和处理编码序列以对于输出序列顺序中的每个位置生成一组子串分数，该组子串分数包括对于一组子串中每个子串的相应子串分数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于端到端语音识别的极深卷积神经网络相关申请的交叉引用本申请要求2016年10月10日提交的美国临时申请序列号62/406,345的优先权。该在先申请的公开被认为是本申请的公开的一部分并且通过引用并入在本申请的公开中。
技术介绍
本说明书涉及使用神经网络的语音识别。语音识别系统接收声学序列并生成由声学序列表示的话语的转录(transcription)。一些语音识别系统包括发音系统、声学建模系统和语言模型。声学建模系统生成声学序列的音素表示，发音系统根据音素表示生成声学序列的字素表示，语言模型根据字素表示生成由声学序列表示的话语的转录。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的语音识别系统。语音识别包括编码器神经网络，该编码器神经网络被配置为根据输入声学序列生成编码序列。输入声学序列表示话语。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示。编码序列包括在多个时间减少的时间步(timereducedtimestep)中的每一个处的相应编码表示。时间减少的时间步的数量小于输入时间步的数量。编码器神经网络包括时间减少子网，该时间减少子网被配置为处理输入声学序列以生成简化表示序列，该简化表示序列包括在多个时间减少的时间步中的每一个处的相应简化表示。编码器神经网络还包括卷积LSTM子网，该卷积LSTM子网被配置为，对于每个时间减少的时间步，在时间减少的时间步处处理简化表示以生成对于时间步的卷积LSTM输出。编码器神经网络还包括网络中网络子网，该网络中网络子网被配置为，对于每个时间减少的时间步，在时间减少的时间步处处理卷...

【技术保护点】
1.一种由一个或多个计算机实施的语音识别神经网络系统，包括：编码器神经网络，被配置为根据输入声学序列生成编码序列，所述输入声学序列表示话语，所述输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示，所述编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示，所述时间减少的时间步的数量少于所述输入时间步的数量，并且所述编码器神经网络包括：时间减少子网，被配置为处理所述输入声学序列以生成包括在多个时间减少的时间步中的每一个处的相应简化表示的简化表示序列；卷积LSTM子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述简化表示，以生成对于所述时间步的卷积LSTM输出；和网络中网络子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述卷积LSTM输出以生成对于所述时间减少的时间步的所述编码表示；和解码器神经网络，被配置为接收所述编码序列并且处理所述编码序列，以对于输出序列顺序中的每个位置，生成一组子串分数，所述一组子串分数包括对于一组子串中每个子串的相应子串分数。

【技术特征摘要】
【国外来华专利技术】2016.10.10 US 62/406,3451.一种由一个或多个计算机实施的语音识别神经网络系统，包括：编码器神经网络，被配置为根据输入声学序列生成编码序列，所述输入声学序列表示话语，所述输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示，所述编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示，所述时间减少的时间步的数量少于所述输入时间步的数量，并且所述编码器神经网络包括：时间减少子网，被配置为处理所述输入声学序列以生成包括在多个时间减少的时间步中的每一个处的相应简化表示的简化表示序列；卷积LSTM子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述简化表示，以生成对于所述时间步的卷积LSTM输出；和网络中网络子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述卷积LSTM输出以生成对于所述时间减少的时间步的所述编码表示；和解码器神经网络，被配置为接收所述编码序列并且处理所述编码序列，以对于输出序列顺序中的每个位置，生成一组子串分数，所述一组子串分数包括对于一组子串中每个子串的相应子串分数。2.如权利要求1所述的系统，其中，所述时间减少子网包括：第一时间减少块，包括：第一深度级联层，被配置为在所述输入声学序列中以预定间隔在多个相邻输入时间步处深度级联声学特征表示，以生成第一级联表示序列；和第一时间减少卷积层，被配置为处理所述第一级联表示序列以生成初始简化表示序列，所述初始简化表示序列包括在多个初始时间减少的时间步中的每一个处的相应初始简化表示；和第二时间减少块，包括：第二深度级联层，被配置为在所述初始简化序列中以预定间隔在多个相邻初始时间减少的时间步处深度级联初始简化表示，以生成第二级联表示序列；和第二时间减少卷积层，被配置为处理所述第二级联表示序列以生成包括在多个时间减少的时间步中的每一个处的简化表示的所述简化表示序列。3.如权利要求...

【专利技术属性】
技术研发人员：N杰伊特利，张羽，W陈，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人