部署的端对端语音识别制造技术

技术编号:16673280 阅读:36 留言:0更新日期:2017-11-30 17:27
公开了端对端深度学习系统和方法的实施例,以识别截然不同的诸如英语或普通话等的语言的语音。在实施例中,用神经网络代替手工工程化部件的整个流水线,并且端对端学习允许处理包括噪声环境、口音和不同语言的各种各样的语音。将训练的实施例和利用GPU的批量调度技术的实施例运用在数据中心中,能够以较低的成本将端对端深度学习系统部署到在线设置中,从而在大规模用户服务时提供低延迟。

【技术实现步骤摘要】
【国外来华专利技术】部署的端对端语音识别相关申请的交叉引用本申请要求对2015年11月25日提交的题为“深度语音2代:英语和普通话端对端语音识别”的第62/260,206号(案卷号28888-1990P)共有美国临时专利申请的优先权益,并列出了BryanCatanzaro,JingdongChen,MichaelChrzanowski,ErichElsen,JesseEngel,ChristopherFougner,XuHan,AwniHannun,RyanPrenger,SanjeevSatheesh,ShubhabrataSengupta,DaniYogatama,ChongWang,JunZhan,ZhenyaoZhu和DarioAmodei为其专利技术人。上述专利文献通过引用整体并入本文。本申请还要求对同在2016年11月21日提交的题为“部署的端对端语音识别”的第15/358,083号(案卷号28888-2078(BN151203USN1-1))共有美国专利申请和题为“端对端语音识别”的第15/358,102号(案卷号28888-1990(BN151203USN1)的美国专利申请的优先权益,并列出了BryanCatanzaro,JingdongChen,MichaelChrzanowski,ErichElsen,JesseEngel,ChristopherFougner,XuHan,AwniHannun,RyanPrenger,SanjeevSatheesh,ShubhabrataSengupta,DaniYogatama,ChongWang,JunZhan,ZhenyaoZhu和DarioAmodei作为专利技术人。每个上述专利文献的全部内容都通过引用并入本文。
本公开涉及语音识别。更具体地,本公开涉及用于端对端语音识别的系统和方法,并且可以用于截然不同的语言。
技术介绍
自动语音识别(ASR)属于计算语言学的跨学科子领域,其将语言学、计算机科学和电气工程领域的知识与研究结合起来,以开发使得能够通过计算机和计算机化设备将口语语言识别和翻译成文本的方法和技术(诸如分类为智能技术和机器人的那些方法和技术)。20世纪80年代后期,神经网络成为ASR中具有吸引力的声学建模方法。此后,神经网络已被用于语音识别的许多方面,例如音素分类、孤立词识别和说话者自适应。语音识别的许多方面已经通过涉及长短期记忆(LSTM)和递归神经网络(RNN)的深度学习方法得以解决。语音识别中的挑战之一是语音和声学广泛的变异性。构建和调整语音识别器自适应于以可接受的准确性来支持多种语言应用,特别是当涉及到的语言截然不同(如英语和普通话)时,是具有挑战性的。因此,需要改进的用于端对端语音识别的系统和方法。附图说明参考本专利技术的实施例,其示例可在附图中示出。这些附图旨在说明而非限制。尽管在这些实施例的上下文中总体上描述了本专利技术,但是应当理解,其并非旨在将本专利技术的范围限制于这些特定实施例。图1(“图1”)描绘了根据本公开的实施例的端对端深度学习模型的架构。图2描绘了根据本公开的实施例的用于对深度学习模型进行训练的方法。图3描绘了根据本公开的实施例的逐序列批量归一化的方法。图4通过图表描绘了根据本公开的实施例的使用和未使用批量归一化训练的两个模型的训练曲线。图5描绘了根据本公开的实施例的使用课程学习策略来训练RNN模型的方法。图6描绘了根据本公开的实施例的使用用于输出转录的双字母分割来训练RNN模型的方法。图7描绘了根据本公开的实施例的未来语境大小为2的行卷积架构。图8描绘了根据本公开的实施例的具有单向RNN模型的音频转录的方法。图9描绘了根据本公开的实施例的用于对自适应于多种语言的语音转录模型进行训练的方法。图10描绘了根据本公开的实施例的两个网络的伸缩比较。图11描绘了根据本公开的实施例的用于链结式时间分类算法(ConnectionistTemporalClassification,CTC)的GPU实现的正向传送和反向传送。图12描绘了根据本公开的实施例的用于CTC损失函数的GPU实现的方法。图13描绘了根据本公开的实施例的用于语音转录训练的数据采集方法。图14描绘了根据本公开的实施例的以给定大小的批量来处理请求的概率。图15描绘了根据本公开的实施例的作为服务器负载的函数的中值和98百分位数延迟。图16描绘了根据本公开的实施例的内核的比较。图17描绘了根据本公开的实施例的训练节点的示意图,其中PLX表示PCI交换机,并且虚线框包括由相同PCI根复合体连接的所有设备。图18描绘了根据本公开的实施例的计算系统的简化框图。具体实施方式在下面的描述中,为了说明的目的,阐述了具体细节以便提供对本专利技术的理解。然而,对于本领域技术人员显而易见的是,可以在没有这些细节的情况下实践本专利技术。此外,本领域技术人员将认识到,下面描述的本专利技术的实施例可以以诸如过程、装置、系统、设备或方法等各种方式在有形计算机可读介质上实现。图中所示的部件或模块是本专利技术的示例性实施例的说明,并且旨在避免混淆本专利技术。还应当理解,在整个讨论中,部件可以被描述为可以包括子单元的单独的功能单元,但是本领域技术人员将认识到,各种部件或其部分可以被分成单独的部件,或者可以集成在一起,包括集成在单个系统或部件中。应当注意,本文讨论的功能或操作可以被实现为部件。该部件可以在软件、硬件或其组合中实现。此外,图中的部件或系统之间的连接不旨在被限制为直接连接。相反,这些部件之间的数据可能被中间部件修改、重新格式化或以其他方式更改。此外,可以使用附加或更少的连接。还应当注意,术语“联接”、“连接”或“通信联接”应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。在本说明书中对“一个实施例”、“优选实施例”、“实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包含在本专利技术的至少一个实施例中,也可以包含在多于一个实施例中。此外,在说明书中的各个地方的上述短语的出现不一定都参照相同的一个或多个实施例。此外,在说明书中的各个地方使用某些术语是为了说明,不应被解释为限制。本文使用的任何标题仅用于组织目的,不应用于限制说明书或权利要求书的范围。此外,应注意:(1)可以可选地执行某些步骤;(2)各步骤可能不限于本文提出的具体顺序;(3)可以以不同的顺序执行某些步骤;和(4)某些步骤可以同时进行。应当注意,本文提供的任何实验和结果是通过说明的方式提供的,并且是在特定条件下使用具体实施例进行的。因此,这些实验及其结果均不应用于限制本专利文献披露的范围。1.介绍几十年来人工领域(hand-engineereddomain)知识进入了当前最先进的自动语音识别流水线(ASR)中。一个简单但有效的替代解决方法是将这样的ASR模型端对端地训练,使用深度学习并用单个模型来替代大部分模块。在本专利文献中,在此呈现了举例说明端对端学习的主要优点的语音系统的实施例。这些系统(其通常可以被称为深度语音2代、深度语音2代ASR、深度语音2代ASR流水线或DS2)的实施例在几个基准测试中接近或超过亚马逊土耳其机器人(AmazonMechanicalTurk)人类工作者的准确率,它以很少的修改在多国语言中工本文档来自技高网
...
部署的端对端语音识别

【技术保护点】
一种用于语音音频转录的由计算机实现的方法,所述方法包括:从用户接收输入音频,所述输入音频包括多个话语;针对每个话语生成一组谱帧;将所述一组谱帧输入到递归神经网络(RNN)模型中,所述RNN模型包括一个或多个卷积层和一个或多个递归层,所述RNN模型是使用采样自训练数据集的多个小批量训练话语序列被预训练过的,多个小批量在训练期间被批量归一化以对所述一个或多个递归层中的至少一个中的预激活进行归一化;从所述RNN模型获得一个或多个预测字符的概率输出;以及利用由语言模型所约束的所述概率输出来执行搜索以查找每个话语最可能的转录,所述语言模型将根据所述预测字符的概率输出所确定的一串字符解释为一个词或多个词。

【技术特征摘要】
【国外来华专利技术】2015.11.25 US 62/260,206;2016.11.21 US 15/358,102;1.一种用于语音音频转录的由计算机实现的方法,所述方法包括:从用户接收输入音频,所述输入音频包括多个话语;针对每个话语生成一组谱帧;将所述一组谱帧输入到递归神经网络(RNN)模型中,所述RNN模型包括一个或多个卷积层和一个或多个递归层,所述RNN模型是使用采样自训练数据集的多个小批量训练话语序列被预训练过的,多个小批量在训练期间被批量归一化以对所述一个或多个递归层中的至少一个中的预激活进行归一化;从所述RNN模型获得一个或多个预测字符的概率输出;以及利用由语言模型所约束的所述概率输出来执行搜索以查找每个话语最可能的转录,所述语言模型将根据所述预测字符的概率输出所确定的一串字符解释为一个词或多个词。2.如权利要求1所述的由计算机实现的方法,其中所述归一化包括:针对所述一个或多个卷积层和所述一个或多个递归层中的每个隐藏单元,在每个小批量中的每个训练话语序列的长度上计算的平均值和方差。3.如权利要求1所述的由计算机实现的方法,其中所述RNN模型还包括位于所述一个或多个递归层上的行卷积层。4.如权利要求3所述的由计算机实现的方法,其中所述行卷积层是单向且仅正向的层。5.如权利要求4所述的由计算机实现的方法,其中所述行卷积层的激活是通过在当前时间步长和至少一个未来时间步长下使用来自所述递归层的信息而获得的,所述行卷积层的激活被用于与所述当前时间步长相对应的字符预测。6.如权利要求1所述的由计算机实现的方法,其中所述预测字符是英语字母或汉语字符。7.如权利要求1所述的由计算机实现的方法,其中所述输入音频被归一化,以使所述输入音频的总功率与用于预训练所述RNN模型的一组训练样本一致。8.如权利要求1所述的由计算机实现的方法,其中在所述语言模型中执行集束搜索,以仅考虑累积概率至少为阈值的字符。9.如权利要求1所述的由计算机实现的方法,其中在获得所述一组谱帧的过程中,通过以预定数量时间片段的步长为跨距来实现对所述话语的二次采样,从而生成所述一组谱帧。10.如权利要求10所述的由计算机实现的方法,其中来自所述转录模型的所述预测字符包括从整个词、音节和词级别上的非重叠的n元构词中选出的替代标签。11.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介,当由一个或多个微处理器执行时,所述指令序列执行以下步骤:接收输入音频,所述...

【专利技术属性】
技术研发人员:布赖恩·卡坦扎罗陈景东麦克·赫扎诺夫斯基艾瑞克·艾乐森耶西·恩格尔克里斯托弗·丰纳韩旭阿维尼·汉奈赖恩·普兰格桑吉夫·萨西斯舒布哈伯拉塔·桑古塔达尼·尤哥塔玛王充詹君朱臻垚达理奥·阿默迪
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1