部署的端对端语音识别制造技术

技术编号：16673280 阅读：36 留言：0更新日期：2017-11-30 17:27

公开了端对端深度学习系统和方法的实施例，以识别截然不同的诸如英语或普通话等的语言的语音。在实施例中，用神经网络代替手工工程化部件的整个流水线，并且端对端学习允许处理包括噪声环境、口音和不同语言的各种各样的语音。将训练的实施例和利用GPU的批量调度技术的实施例运用在数据中心中，能够以较低的成本将端对端深度学习系统部署到在线设置中，从而在大规模用户服务时提供低延迟。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】部署的端对端语音识别相关申请的交叉引用本申请要求对2015年11月25日提交的题为“深度语音2代：英语和普通话端对端语音识别”的第62/260,206号(案卷号28888-1990P)共有美国临时专利申请的优先权益，并列出了BryanCatanzaro，JingdongChen，MichaelChrzanowski，ErichElsen，JesseEngel，ChristopherFougner，XuHan，AwniHannun，RyanPrenger，SanjeevSatheesh，ShubhabrataSengupta，DaniYogatama，ChongWang，JunZhan，ZhenyaoZhu和DarioAmodei为其专利技术人。上述专利文献通过引用整体并入本文。本申请还要求对同在2016年11月21日提交的题为“部署的端对端语音识别”的第15/358,083号(案卷号28888-2078(BN151203USN1-1))共有美国专利申请和题为“端对端语音识别”的第15/358,102号(案卷号28888-1990(BN151203USN1)的美国专利申请的优先权益，并列出了BryanCatanzaro，JingdongChen，MichaelChrzanowski，ErichElsen，JesseEngel，ChristopherFougner，XuHan，AwniHannun，RyanPrenger，SanjeevSatheesh，ShubhabrataSengupta，DaniYogatama，ChongWang，JunZhan，Zhen...
部署的端对端语音识别

【技术保护点】
一种用于语音音频转录的由计算机实现的方法，所述方法包括：从用户接收输入音频，所述输入音频包括多个话语；针对每个话语生成一组谱帧；将所述一组谱帧输入到递归神经网络(RNN)模型中，所述RNN模型包括一个或多个卷积层和一个或多个递归层，所述RNN模型是使用采样自训练数据集的多个小批量训练话语序列被预训练过的，多个小批量在训练期间被批量归一化以对所述一个或多个递归层中的至少一个中的预激活进行归一化；从所述RNN模型获得一个或多个预测字符的概率输出；以及利用由语言模型所约束的所述概率输出来执行搜索以查找每个话语最可能的转录，所述语言模型将根据所述预测字符的概率输出所确定的一串字符解释为一个词或多个词。

【技术特征摘要】
【国外来华专利技术】2015.11.25 US 62/260,206;2016.11.21 US 15/358,102;1.一种用于语音音频转录的由计算机实现的方法，所述方法包括：从用户接收输入音频，所述输入音频包括多个话语；针对每个话语生成一组谱帧；将所述一组谱帧输入到递归神经网络(RNN)模型中，所述RNN模型包括一个或多个卷积层和一个或多个递归层，所述RNN模型是使用采样自训练数据集的多个小批量训练话语序列被预训练过的，多个小批量在训练期间被批量归一化以对所述一个或多个递归层中的至少一个中的预激活进行归一化；从所述RNN模型获得一个或多个预测字符的概率输出；以及利用由语言模型所约束的所述概率输出来执行搜索以查找每个话语最可能的转录，所述语言模型将根据所述预测字符的概率输出所确定的一串字符解释为一个词或多个词。2.如权利要求1所述的由计算机实现的方法，其中所述归一化包括：针对所述一个或多个卷积层和所述一个或多个递归层中的每个隐藏单元，在每个小批量中的每个训练话语序列的长度上计算的平均值和方差。3.如权利要求1所述的由计算机实现的方法，其中所述RNN模型还包括位于所述一个或多个递归层上的行卷积层。4.如权利要求3所述的由计算机实现的方法，其中所述行卷积层是单向且仅正向的层。5.如权利要求4所述的由计算机实现的方法，其中所述行卷积层的激活是通过在当前时间步长和至少一个未来时间步长下使用来自所述递归层的信息而获得的，所述行卷积层的激活被用于与所述当前时间步长相对应的字符预测。6.如权利要求1所述的由计算机实现的方法，其中所述预测字符是英语字母或汉语字符。7.如权利要求1所述的由计算机实现的方法，其中所述输入音频被归一化，以使所述输入音频的总功率与用于预训练所述RNN模型的一组训练样本一致。8.如权利要求1所述的由计算机实现的方法，其中在所述语言模型中执行集束搜索，以仅考虑累积概率至少为阈值的字符。9.如权利要求1所述的由计算机实现的方法，其中在获得所述一组谱帧的过程中，通过以预定数量时间片段的步长为跨距来实现对所述话语的二次采样，从而生成所述一组谱帧。10.如权利要求10所述的由计算机实现的方法，其中来自所述转录模型的所述预测字符包括从整个词、音节和词级别上的非重叠的n元构词中选出的替代标签。11.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介，当由一个或多个微处理器执行时，所述指令序列执行以下步骤:接收输入音频，所述...

【专利技术属性】
技术研发人员：布赖恩·卡坦扎罗，陈景东，麦克·赫扎诺夫斯基，艾瑞克·艾乐森，耶西·恩格尔，克里斯托弗·丰纳，韩旭，阿维尼·汉奈，赖恩·普兰格，桑吉夫·萨西斯，舒布哈伯拉塔·桑古塔，达尼·尤哥塔玛，王充，詹君，朱臻垚，达理奥·阿默迪，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人