【技术实现步骤摘要】
【国外来华专利技术】两遍端到端语音识别
技术介绍
[0001]自动助理(也称为“个人助理”、“移动助理”等)可以由用户经由诸如智能电话、平板计算机、可穿戴设备、汽车系统、独立个人助理设备等的各种客户端设备与之交互。自动助理从用户接收包括口语自然语言输入(即,话语)的输入,并且可以通过执行动作、通过控制另一设备和/或提供响应内容(例如,可视和/或可听自然语言输出)来响应。经由客户端设备与之交互的自动助理可以经由客户端设备它本身和/或经由与客户端设备网络通信的一个或多个远程计算设备(例如,云中的计算设备)来实现。
[0002]自动助理能够将与用户的口语话语相对应的音频数据转换成对应的文本(或其他语义表示)。例如,能够基于经由包括自动助理的客户端设备的一个或多个麦克风对用户口语的检测来生成音频数据。自动助理能够包括语音识别引擎,该语音识别引擎试图识别在音频数据中捕获的口语话语的各种特性,诸如通过口语话语产生的声音(例如,音素)、发出音的声音的顺序、语音的韵律、声调等。此外,语音识别引擎能够标识通过这些特性表示的文本词或短语。文本然后能够由自动助理进一步处理(例如,使用自然语言理解引擎和/或对话状态引擎)以确定口语话语的响应内容。语音识别引擎能够由客户端设备和/或由远离客户端设备但与客户端设备网络通信的一个或多个自动助理组件来实现。
技术实现思路
[0003]本文中描述的技术针对使用端到端(E2E)两遍自动语音识别(ASR)模型来生成口语话语的文本表示。两遍ASR模型包括流传输第一遍部分以及非流传输第二遍部分。在许多实施方式中,第一遍部分包括循环 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收包括分段序列并且捕获由人类讲话者讲出的话语的音频数据;对于所述分段中的每一个,并且按顺序:使用自动语音识别(“ASR”)模型的第一遍部分来处理所述分段以生成循环神经网络变换器(“RNN
‑
T”)输出,其中,使用所述ASR模型的第一遍部分来处理所述分段包括:使用共享编码器部分来处理所述分段以生成共享编码器输出,将所述共享编码器输出作为下一项添加在共享编码器缓冲器中,使用RNN
‑
T解码器部分来处理所述共享编码器输出以生成RNN
‑
T输出的对应部分,以及使用附加编码器来处理所述共享编码器输出以生成附加编码器输出;基于所述RNN
‑
T输出确定所述话语的一个或多个第一遍候选文本表示;确定所述人类讲话者已经结束讲出所述话语;响应于确定所述人类讲话者已经结束讲出所述话语:使用附加编码器来处理来自所述共享编码器缓冲器的所述共享编码器输出以生成附加编码器输出;基于使用所述ASR模型的第二遍LAS解码器部分来处理所述附加编码器输出以及(a)所述RNN
‑
T输出或(b)所述话语的一个或多个第一遍候选文本表示中的至少一个来生成听参加拼写(“LAS”)输出;以及基于所述LAS输出来生成所述话语的最终文本表示。2.根据权利要求1所述的方法,其中,接收包括所述分段序列并且捕获由所述人类讲话者讲出的所述话语的所述音频数据包括使用客户端设备的一个或多个麦克风来捕获所述音频数据。3.根据任一前述权利要求所述的方法,其中,所述话语的一个或多个第一遍候选文本表示是第一遍格表示。4.根据权利要求3所述的方法,其中,基于使用所述ASR模型的第二遍LAS解码器部分来处理所述附加编码器输出以及所述话语的所述一个或多个第一遍候选文本表示来生成LAS输出包括:对于所述第一遍格表示中的每个格弧,在注意所述附加编码器输出的情况下在教师强制模式下使用所述LAS解码器来处理所述格弧以更新与所述弧相对应的所述第一遍候选文本表示的概率;以及通过选择具有最高更新后的概率的所述第一遍候选文本表示来生成所述LAS输出。5.根据任一前述权利要求所述的方法,进一步包括:生成多个训练实例,其中,生成每个训练实例包括:选择捕获由训练人类讲话者讲出的训练话语的训练音频数据的实例;确定所述训练话语的地面实况表示;以及存储包括所述训练音频数据以及所述训练话语的地面实况文本表示的所述训练实例。6.根据权利要求5所述的方法,进一步包括训练所述ASR模型,其中,训练所述ASR模型包括:对于所述多个训练实例中的每一个并且直到满足一个或多个条件:使用所述共享编码器来处理训练音频数据的实例以生成共享编码器训练输出;
使用所述RNN
‑
T解码器来处理所述共享编码器训练输出以生成预测的RNN
‑
T训练输出;基于所预测的RNN
‑
T训练输出和所述训练话语的地面实况表示来确定损失;基于所确定的损失更新所述共享编码器部分的一个或多个部分和/或基于所确定的损失更新所述RNN
‑
T解...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。