【技术实现步骤摘要】
一种基于级联结构的两阶段语音唤醒方法
[0001]本专利技术涉及语音识别
,进一步说,尤其涉及一种基于级联结构的两阶段语音唤醒方法。
技术介绍
[0002]随着语音识别技术的飞速发展,语音唤醒技术的应用越来越普遍。语音唤醒功能作为智能家居设备的主要功能,已经越来越多应用于家庭生活场景之中,但由于家庭语音环境的复杂情况,容易导致误触发的情况发生,这非常影响用户的实际体验。目前业界通常会采用两级唤醒的模式降低误触发。具体来说就是,第一级唤醒主要用于全天候监听,二级唤醒是在发生可能疑似唤醒的时候,利用一个更优的模型做二次打分,以此作为最终的决策。这种两级语音唤醒机制,可以非常有效地降低误触发的概率。另外,考虑到功耗问题,一级唤醒通常采用模型尺寸小延迟小的唤醒模型,二级则考虑效果更好参数更大的唤醒模型。因此,一二级唤醒模型的结构通常差异较大,这就要求在训练模型阶段分别训练一二级唤醒模型。
技术实现思路
[0003]本专利技术为解决上述技术问题而采用的技术方案是提供一种基于级联结构的两阶段语音唤醒方法,可以一次性 ...
【技术保护点】
【技术特征摘要】
1.一种基于级联结构的两阶段语音唤醒方法,其特征在于:通过级联的方式将基于分块的在线(流式)注意力机制模型和基于整句的离线注意力机制模型结合在一起使用。其中,在线注意力机制模型的计算结果作为离线注意力机制模型的输入。2.如权利要求1所述的一种基于级联结构的两阶段语音唤醒方法,其特征在于:在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择带级联结构和不带级联结构的方式来更新模型参...
【专利技术属性】
技术研发人员:黄乐凯,何昕,
申请(专利权)人:上海声瀚信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。