两遍端到端语音识别制造技术

技术编号:32865412 阅读:7 留言:0更新日期:2022-04-02 11:50
两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,该第一遍部分能够包括循环神经网络变换器(RNN

【技术实现步骤摘要】
【国外来华专利技术】两遍端到端语音识别

技术介绍

[0001]自动助理(也称为“个人助理”、“移动助理”等)可以由用户经由诸如智能电话、平板计算机、可穿戴设备、汽车系统、独立个人助理设备等的各种客户端设备与之交互。自动助理从用户接收包括口语自然语言输入(即,话语)的输入,并且可以通过执行动作、通过控制另一设备和/或提供响应内容(例如,可视和/或可听自然语言输出)来响应。经由客户端设备与之交互的自动助理可以经由客户端设备它本身和/或经由与客户端设备网络通信的一个或多个远程计算设备(例如,云中的计算设备)来实现。
[0002]自动助理能够将与用户的口语话语相对应的音频数据转换成对应的文本(或其他语义表示)。例如,能够基于经由包括自动助理的客户端设备的一个或多个麦克风对用户口语的检测来生成音频数据。自动助理能够包括语音识别引擎,该语音识别引擎试图识别在音频数据中捕获的口语话语的各种特性,诸如通过口语话语产生的声音(例如,音素)、发出音的声音的顺序、语音的韵律、声调等。此外,语音识别引擎能够标识通过这些特性表示的文本词或短语。文本然后能够由自动助理进一步处理(例如,使用自然语言理解引擎和/或对话状态引擎)以确定口语话语的响应内容。语音识别引擎能够由客户端设备和/或由远离客户端设备但与客户端设备网络通信的一个或多个自动助理组件来实现。

技术实现思路

[0003]本文中描述的技术针对使用端到端(E2E)两遍自动语音识别(ASR)模型来生成口语话语的文本表示。两遍ASR模型包括流传输第一遍部分以及非流传输第二遍部分。在许多实施方式中,第一遍部分包括循环神经网络变换器(RNN

T)解码器并且能够以流传输方式生成口语话语的(多个)候选文本表示。在各种实施方式中,非流传输第二遍部分(例如,包括听参加拼写(LAS)解码器的部分)能够被用于改进在第一遍部分中生成的(多个)初始候选文本表示。例如,LAS解码器能够被用于对使用RNN

T解码器生成的候选文本表示进行重新排名。在许多实施方式中,两遍ASR模型能够包括共享编码器,其中RNN

T解码器和LAS解码器共享该共享编码器。与例如对于RNN

T解码器使用专用编码器并且对于LAS解码器使用专用编码器相比,共享编码器的使用能够减小两遍ASR模型的模型大小和/或能够提供提高的计算效率。换句话说,当在生成口语话语的文本表示中利用两遍ASR模型时,共享编码器的使用能够实现对存储器和/或计算资源的高效利用。当两遍ASR模型由通常具有有限的存储器和/或计算资源的客户端设备存储和利用时,对存储器和/或计算资源的这种保护可能是尤其有影响的。例如,共享编码器的使用能够使设备上ASR在其有限的资源能够(至少在诸如低电量情形的一些情形下)防止使用(多个)其他模型的设备上ASR的(多个)客户端设备上被执行。
[0004]作为示例,客户端设备能够使用客户端设备的一个或多个麦克风来捕获“turn on the living room lights(打开起居室灯)”的口语话语。能够使用共享编码器来以流传输方式处理“turn on the living room lights”的口语话语以生成共享编码器输出,并且能够使用RNN

T解码器来处理共享编码器输出以生成“turn on the living room lights”的
(多个)流传输的第一遍候选文本表示。响应于确定用户已经结束讲话,能够使用LAS解码器来处理(多个)第一遍候选文本表示以及共享编码器输出以生成“turn on the living room lights”的文本表示。
[0005]在一些实施方式中,能够使用包括RNN

T损失和LAS损失两者的组合损失函数来训练两遍模型。在那些实施方式中的一些中,训练过程能够包括:(1)训练编码器和RNN

T解码器;(2)冻结在(1)中训练的编码器并且在训练LAS解码器时使用经冻结的编码器;以及(3)使用组合损失函数来同时训练共享编码器、RNN

T解码器和LAS解码器。在那些实施方式的一些版本中,能够另外使用最小词错误率(MWER)训练过程来训练LAS解码器。
[0006]在一些实施方式中,两遍ASR模型还能够包括附加编码器。例如,能够使用附加编码器来处理使用共享编码器生成的共享编码器输出以生成附加编码器输出,其中附加编码器将共享编码器输出适配成更适合于LAS。能够代替共享编码器输出使用LAS解码器在第二遍中处理附加编码器输出。与当LAS解码器处理共享编码器输出时相比,当LAS解码器处理附加编码器输出时,能够减小时延(例如,用户讲话与结果的生成之间的延迟)。
[0007]本文中公开的一些实施方式致力于减小端点器时延。端点指示(endpointing)通常引用确定口语话语何时完成的过程。端点器时延是当口语话语实际上完成时与当端点指示过程确定口语话语实际上完成时之间的时间量。高端点器时延能够在生成对口语话语的响应时产生延迟。此外,利用本文中描述的两遍ASR模型,非流传输第二遍部分可能由于它是非流传输的,处理对应的数据直到端点指示表明口语话语完成为止。因此,减轻端点器时延能够使第二遍部分更快速地被利用,从而使最终文本表示能够利用减小的时延被确定。在各种实施方式中,能够通过训练两遍ASR模型(例如,ASR模型的RNN

T解码器部分)以预测查询结束符号如</s>并且在预测到查询结束符号时确定口语话语完成来减小端点器时延。在一些实施方式中,能够在训练RNN

T时为过早或过晚发出查询结束符号而引入训练惩罚。因此,本文中公开的实施方式能够训练RNN

T来以减小的时延预测查询结束符号并且使用查询结束符号作为端点的指示,从而减轻端点器时延。此外,训练RNN

T预测查询结束符号能够减轻要使用分开的的端点指示模型的需要。使用分开的端点指示模型可能需要使用附加计算资源(例如,存储器资源和/或处理器资源)。
[0008]因此,各种实施方式设置用于在设备上流传输ASR中使用两遍ASR模型的技术。例如,常规ASR系统能够需要在客户端设备捕获音频数据、向远程服务器传送音频数据和/或音频数据的表示、在远程服务器处理音频数据和/或音频数据的表示以生成在音频数据中捕获的话语的文本表示,以及将话语的文本表示传送回到客户端设备。相比之下,设备上ASR系统在客户端设备本地地生成话语的文本表示,而无需向远程服务器或从远程服务器传送数据。在许多实施方式中,当与常规ASR相比时,包括两遍ASR模型的设备上ASR的使用能够通过去除向远程服务器传送数据并从远程服务器接收数据的需要来保存计算资源(例如,电池电力、处理器周期、存储器等)。另外,设备上ASR能够通过处理音频数据以在本地生成文本表示而不将音频数据传送到远程服务器来提供用户隐私优点。此外,设备上ASR系统优于常规ASR模型提供提高的可靠性。例如,当用于将音频数据传本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收包括分段序列并且捕获由人类讲话者讲出的话语的音频数据;对于所述分段中的每一个,并且按顺序:使用自动语音识别(“ASR”)模型的第一遍部分来处理所述分段以生成循环神经网络变换器(“RNN

T”)输出,其中,使用所述ASR模型的第一遍部分来处理所述分段包括:使用共享编码器部分来处理所述分段以生成共享编码器输出,将所述共享编码器输出作为下一项添加在共享编码器缓冲器中,使用RNN

T解码器部分来处理所述共享编码器输出以生成RNN

T输出的对应部分,以及使用附加编码器来处理所述共享编码器输出以生成附加编码器输出;基于所述RNN

T输出确定所述话语的一个或多个第一遍候选文本表示;确定所述人类讲话者已经结束讲出所述话语;响应于确定所述人类讲话者已经结束讲出所述话语:使用附加编码器来处理来自所述共享编码器缓冲器的所述共享编码器输出以生成附加编码器输出;基于使用所述ASR模型的第二遍LAS解码器部分来处理所述附加编码器输出以及(a)所述RNN

T输出或(b)所述话语的一个或多个第一遍候选文本表示中的至少一个来生成听参加拼写(“LAS”)输出;以及基于所述LAS输出来生成所述话语的最终文本表示。2.根据权利要求1所述的方法,其中,接收包括所述分段序列并且捕获由所述人类讲话者讲出的所述话语的所述音频数据包括使用客户端设备的一个或多个麦克风来捕获所述音频数据。3.根据任一前述权利要求所述的方法,其中,所述话语的一个或多个第一遍候选文本表示是第一遍格表示。4.根据权利要求3所述的方法,其中,基于使用所述ASR模型的第二遍LAS解码器部分来处理所述附加编码器输出以及所述话语的所述一个或多个第一遍候选文本表示来生成LAS输出包括:对于所述第一遍格表示中的每个格弧,在注意所述附加编码器输出的情况下在教师强制模式下使用所述LAS解码器来处理所述格弧以更新与所述弧相对应的所述第一遍候选文本表示的概率;以及通过选择具有最高更新后的概率的所述第一遍候选文本表示来生成所述LAS输出。5.根据任一前述权利要求所述的方法,进一步包括:生成多个训练实例,其中,生成每个训练实例包括:选择捕获由训练人类讲话者讲出的训练话语的训练音频数据的实例;确定所述训练话语的地面实况表示;以及存储包括所述训练音频数据以及所述训练话语的地面实况文本表示的所述训练实例。6.根据权利要求5所述的方法,进一步包括训练所述ASR模型,其中,训练所述ASR模型包括:对于所述多个训练实例中的每一个并且直到满足一个或多个条件:使用所述共享编码器来处理训练音频数据的实例以生成共享编码器训练输出;
使用所述RNN

T解码器来处理所述共享编码器训练输出以生成预测的RNN

T训练输出;基于所预测的RNN

T训练输出和所述训练话语的地面实况表示来确定损失;基于所确定的损失更新所述共享编码器部分的一个或多个部分和/或基于所确定的损失更新所述RNN

T解...

【专利技术属性】
技术研发人员:塔拉
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1