【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及使用切换连接的统一端到端语音辨识和端点化。
技术介绍
1、自动语音辨识(asr)系统是一种渐增使用的技术。现代asr系统不仅专注于提供高质量(例如,低误字率),而且还专注于提供对口头话语的低时延(例如,用户说话与转录或响应出现之间的短延迟)语音辨识。例如,当使用实现asr系统的装置时,通常期望asr系统以与实时或甚至比实时更快相对应的流式传输方式对话语进行解码。
技术实现思路
1、本公开的一个方面提供了用于执行语音辨识和端点化的单个端到端多任务模型。多任务模型包括语音辨识模型和端点化器模型。语音辨识模型包括被配置为将音频帧序列编码为对应第一高阶特征表示的音频编码器,该音频编码器包括多个多头注意力层。语音辨识模型还包括解码器,该解码器被配置为基于第一高阶特征表示来针对音频帧序列生成可能的语音辨识假设的概率分布。端点化器模型被配置为在话音活动检测(vad)模式与查询结束(eoq)检测模式之间操作。在vad模式期间,端点化器模型被配置为接收输入音频帧,并且针对每个输入音频帧确定输入音频
...【技术保护点】
1.一种用于执行语音辨识和端点化的单个端到端多任务模型(200),其特征在于,所述多任务模型(200)包括:
2.根据权利要求1所述的多任务模型(200),其特征在于,所述语音辨识模型(210)和所述端点化器模型(220)使用多任务学习在训练语音话语集上进行联合训练,所述训练语音话语集中的每个训练语音话语包括:
3.根据权利要求2所述的多任务模型(200),其特征在于,所述语音辨识模型(210)和所述端点化器模型(220)通过以下在所述训练语音话语集上进行联合训练:
4.根据权利要求2至3中任一项所述的多任务模型(200),其特征在
...【技术特征摘要】
【国外来华专利技术】
1.一种用于执行语音辨识和端点化的单个端到端多任务模型(200),其特征在于,所述多任务模型(200)包括:
2.根据权利要求1所述的多任务模型(200),其特征在于,所述语音辨识模型(210)和所述端点化器模型(220)使用多任务学习在训练语音话语集上进行联合训练,所述训练语音话语集中的每个训练语音话语包括:
3.根据权利要求2所述的多任务模型(200),其特征在于,所述语音辨识模型(210)和所述端点化器模型(220)通过以下在所述训练语音话语集上进行联合训练:
4.根据权利要求2至3中任一项所述的多任务模型(200),其特征在于,对于每个训练语音话语,所述多任务模型(200)的切换连接(222)随机选择所述端点化器模型(220)来接收以下中的一个作为输入:
5.根据权利要求1至4中任一项所述的多任务模型(200),其特征在于,当所述端点化器模型(220)在所述vad模式期间确定所述输入音频帧(144)包括语音时,所述端点化器模型(220)将操作从所述vad模式切换到所述eoq检测模式。
6.根据权利要求1至5中任一项所述的多任务模型(200),其特征在于,当所述端点化器模型(220)在所述eoq检测模式期间确定所述潜在表示(243)包括最终静默时,所述端点化器模型(220)将操作从所述eoq检测模式切换到所述vad模式。
7.根据权利要求1至6中任一项所述的多任务模型(200),其特征在于,所述解码器(250)包括:
8.根据权利要求7所述的多任务模型(200),其特征在于,所述预测网络(254)包括:
9.根据权利要求1至8中任一项所述的多任务模型(200),其特征在于,所述多个多头注意力层(247)包括conformer层或transformer层。
10.根据权利要求1至9中任一项所述的多任务模型(200),其特征在于:
11.根据权利要求1至10中任一项所述的多任务模型(200),其特征在于,所述端点化器模型(220)包括一个或多个长短期记忆(lstm)层的堆叠,后面是完全连接层,所述完全连接层具有被配置为预测语音、初始静默、中间静默和最终静默的可能端点化标签的概率分布的softmax函数。
12.一种...
【专利技术属性】
技术研发人员:沙恩·贾迪普·帕特里克·白约迪亚,张硕英,塔拉·N·萨纳特,李博,张超,何彦璋,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。