【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及预测用于端到端语音识别模型的设备上批处理的单词边界。
技术介绍
1、现代自动语音识别(asr)系统集中于不仅提供高质量(例如,低单词错误率),而且提供低等待时间(例如,用户说话和出现转录之间的短延迟)的用于说出话语的语音识别。例如,当使用实施asr系统的设备时,通常期望asr系统以对应于实时或甚至比实时更快的流式来解码话语。为了说明,当设备上asr系统被部署在经历直接用户交互的移动电话上时,在使用asr系统的移动电话上的应用可能要求语音识别是流式传输的,使得单词一被说出就出现在屏幕上。这里,移动电话的用户也可能具有对等待时间的低容忍度。由于这种低容忍度,语音识别努力在移动设备上以最小化可能对用户体验产生不利影响的等待时间和不准确性的影响的方式运行。
技术实现思路
1、本公开的一个方面提供了一种方法,包括接收与由用户设备捕获的话语对应的输入音频帧序列,所述话语包括多个单词。对于每个输入音频帧,所述方法包括使用被配置为接收所述输入音频帧的序列作为输入的单词边界检测模型来预测所述输入音
...【技术保护点】
1.一种计算机实施的方法(500),其特征在于,当在数据处理硬件(610)上执行时,使所述数据处理硬件(610)进行操作,包括:
2.根据权利要求1所述的计算机实施的方法(500),其特征在于,所述单词边界检测模型(210)包括声音活动检测(VAD)模型。
3.根据权利要求1所述的计算机实施的方法(500),其特征在于,所述语音识别模型(230)包括第一语音识别模型,并且所述单词边界检测模型(210)包括第二语音识别模型,所述第二语音识别模型是使用转录标签(415)来训练的,所述转录标签(415)用每对相邻单词之间的特定边界令牌来扩充。
...【技术特征摘要】
【国外来华专利技术】
1.一种计算机实施的方法(500),其特征在于,当在数据处理硬件(610)上执行时,使所述数据处理硬件(610)进行操作,包括:
2.根据权利要求1所述的计算机实施的方法(500),其特征在于,所述单词边界检测模型(210)包括声音活动检测(vad)模型。
3.根据权利要求1所述的计算机实施的方法(500),其特征在于,所述语音识别模型(230)包括第一语音识别模型,并且所述单词边界检测模型(210)包括第二语音识别模型,所述第二语音识别模型是使用转录标签(415)来训练的,所述转录标签(415)用每对相邻单词之间的特定边界令牌来扩充。
4.根据权利要求3所述的计算机实施的方法(500),其特征在于:
5.根据权利要求3或4所述的计算机实施的方法(500),其特征在于:
6.根据权利要求3-5中任一项所述的计算机实施的方法(500),其特征在于,所述第二语音识别模型包括小型化语音识别模型。
7.根据权利要求1-6中任一项所述的计算机实施的方法(500),其特征在于:
8.根据权利要求7所述的计算机实施的方法(500),其特征在于:
9.根据权利要求1-8中任一项所述的计算机实施的方法(500),其特征在于,所述多个批(222)中的每个批(222)包括整体地表示特定的说出单词的所述输入音频帧(110)的序列中的全部所述输入音频帧(110)。
10.根据权利要求1-9中任一项所述的计算机实施的方法(500),其特征在于,所述语音识别模型包括基于换能器的语音识别模型(230),所述基于换能器的语音识别模型(230)包括编码器网络(240),预测网络(300)和联合网络(250)。
11.根据权利要求10所述的计算机实施的方法(500),其特征在于,所述编码器网络(240)包括多个多头注意力层。
12.根据权利要求10或11所述的计算机实施的方法(500),其特征在于:
13.根据权利要求12所述的计算机实施的方法(500),其特征在于,所述预测网络(30...
【专利技术属性】
技术研发人员:沙恩·贾迪普·帕特里克·白约迪亚,塔拉·N·萨纳特,余家华,张硕英,何彦璋,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。