提升语音唤醒性能的方法和装置制造方法及图纸

技术编号:22596195 阅读:45 留言:0更新日期:2019-11-20 11:48
本发明专利技术公开提升语音唤醒性能的方法和装置,其中,一种提升语音唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段,并基于疑似语音帧和非语音帧在输入信号中的占比确定加权因子;将有效语音段输入至唤醒模型中,其中,唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;获取自适应唤醒模型的输出,使用加权因子对输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。本申请提供的方案可以有效抑制噪声场景的误唤醒率,进一步地,还能针对性地提升对于特定用户的唤醒率。

Methods and devices for improving voice wake-up performance

The invention discloses a method and a device for improving the speech wake-up performance, wherein, a method for improving the speech wake-up performance includes: detecting an input signal in the form of a voice frame, determining a voice frame as a suspected voice frame or a non voice frame; determining an effective voice segment based on a suspected voice frame and a non voice frame, and determining an effective voice segment in an input signal based on a suspected voice frame and a non voice frame The effective speech segment is input into the wake-up model, where the wake-up model is a multi classification model obtained after supervised deep neural network learning based on the positive samples of wake-up words and the negative samples of non wake-up words collected; the output of the adaptive wake-up model is obtained, and the output is weighted based on the weighted calculation The output of determines whether to wake up the device. The scheme provided by the application can effectively suppress the false wake-up rate of noise scene, and further, can pertinently improve the wake-up rate for specific users.

【技术实现步骤摘要】
提升语音唤醒性能的方法和装置
本专利技术属于语音唤醒
,尤其涉及提升语音唤醒性能的方法和装置。
技术介绍
相关技术中,目前市场上还没有即提升唤醒率又降低误唤醒的样例。唤醒和误唤醒是此消彼长的关系,目前市场上都是择其一做优化,保持一方基本不降的基础上,优化另一方。在降低误唤醒方面,比较有代表的是添加二次验证;提升唤醒率方面,主要是降低唤醒门槛。专利技术人在实现本申请的过程中发现,现有技术中主要存在以下方案:1、添加二次验证模块,设置双重门限,唤醒引擎将接收的语音信号进行初步判断,当满足预设条件则开启二次验证,由二次验证的结果确定设备是否执行唤醒操作;2、降低唤醒门槛,最简单快捷的就是降低唤醒阈值,达到容易唤醒的目的。其中,一方面,二次验证会增加设备的功耗,加大延迟,影响用户在实际中的交互体验;另外,在一些运算资源有限的设备上存在崩溃的风险,不能普及到计算能力较弱的设备上,迅速降低误唤醒的同时也伴随着唤醒率的降低。另一方面,降低唤醒门槛可以有效的提升唤醒率,但是同时会带来误唤醒的提升。
技术实现思路
本专利技术实施例提供一种提升语音唤醒性能的方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种提升语音唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。第二方面,本专利技术实施例提供一种提升语音唤醒性能的装置,包括:检测判定模块,配置为以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;加权因子确定模块,配置为基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;输入模块,配置为将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;加权输出模块,配置为获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的提升语音唤醒性能的方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的提升语音唤醒性能的方法的步骤。本申请的方法和装置提供的方案通过根据疑似语音帧和非语音帧在输入信号中的占比确定的加权因子对自适应唤醒模型的输出进行加权计算,可以有效地抑制噪声场景的误唤醒,从而可以降低误唤醒率。在进一步的实施例中,结合产品形态增加预唤醒检测功能,加入动态调节唤醒机制,能够快速有效的拾取短时二次发送的唤醒指令,成功启动唤醒,尤其是在嘈杂环境中效果尤为明显。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种提升语音唤醒性能的方法的流程图;图2为本专利技术一实施例提供的另一种提升语音唤醒性能的方法的流程图;图3为本专利技术一实施例提供的又一种提升语音唤醒性能的方法的流程图;图4为本专利技术一实施例提供的一种提升语音唤醒性能的方法的一个具体示例的流程图;图5为本专利技术一实施例提供的一种提升语音唤醒性能的装置的框图;图6是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的提升语音唤醒性能的方法一实施例的流程图,本实施例的提升语音唤醒性能的方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒的智能终端等。如图1所示,在步骤101中,以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧;在步骤102中,基于判定的疑似语音帧和非语音帧确定有效语音段,并基于疑似语音帧和非语音帧在输入信号中的占比确定加权因子;在步骤103中,将有效语音段输入至唤醒模型中;在步骤104中,获取自适应唤醒模型的输出,使用加权因子对输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。在本实施例中,对于步骤101,提升语音唤醒性能的装置对输入信号的每一帧语音信号进行语音活性检测,判断该语音帧为疑似语音帧还是非语音帧。之后,对于步骤102,提升语音唤醒性能的装置根据判定的疑似语音帧和非语音帧确定有效语音段,并根据该疑似语音帧和非语音帧在输入信号中的占比确定加权因子,或者也可以根据有效语音段在输入语音中的占比确定加权因子,有效语音段可以只有一段,也可以是多段,本申请在此没有限制。之后,对于步骤103,提升语音唤醒性能的装置将之前确定的有效语音段输入至预先训练好的自适应唤醒模型中,其中,该自适应唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型。最后,对于步骤104,提升语音唤醒性能的装置获取该自适应唤醒模型的输出,并且使用之前确定的加权因子对该输出进行加权计算,然后基于加权计算后的输出确定是否要唤醒当前设备。本实施例的方法通过根据疑似语音帧和非语音帧在输入信号中的占比确定的加权因子对自适应唤醒模型的输出进行加权计算,可以有效地抑制噪声场景的误唤醒,从而可以降低误唤醒率。请参考图2,其示出了本申请的提升语音唤醒性能的方法另一实施例的流程图。该流程图主要是针对流程图图1中步骤104进一步限定的步骤的流程图。如图2所示,在步骤201中,基于唤醒模型计算有效语音段对于预设唤醒词的置信度,使用加权因子对置信度进行加权计算;在步骤202中,若加权计算后的置信度本文档来自技高网...

【技术保护点】
1.一种提升语音唤醒性能的方法,包括:/n以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;/n基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;/n将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;/n获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。/n

【技术特征摘要】
1.一种提升语音唤醒性能的方法,包括:
以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;
基于判定的疑似语音帧和非语音帧确定有效语音段,并基于所述疑似语音帧和所述非语音帧在所述输入信号中的占比确定加权因子;
将所述有效语音段输入至唤醒模型中,其中,所述唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;
获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。


2.根据权利要求1所述的方法,其中,所述获取所述自适应唤醒模型的输出,使用所述加权因子对所述输出进行加权计算,基于加权计算后的输出确定是否唤醒设备包括:
基于唤醒模型计算有效语音段对于预设唤醒词的置信度,使用所述加权因子对所述置信度进行加权计算;
若加权计算后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
若所述加权计算后的置信度小于所述第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态;
若所述加权计算后的置信度小于所述第二预设唤醒阈值,则不唤醒所述设备。


3.根据权利要求2所述的方法,其中,在若所述加权计算后的置信度小于第一预设唤醒阈值且大于等于第二预设唤醒阈值,则进入预唤醒状态之后,所述方法还包括:
对于进入预唤醒状态的输入信号,结合当前的声学环境和用户的使用意图,使用动态调节因子对所述输入信号的后续语音信号的加权计算后的置信度进行调节;
若调节后的置信度大于等于第一预设唤醒阈值,则唤醒设备;
若调节后的置信度小于第一预设唤醒阈值,则不唤醒设备。


4.根据权利要求1-3中任一项所述的方法,其中,所述加权因子与所述疑似语音帧在所述输入信号中的占比成正相关。


5.根据权利要求4所述的方法,其中,所述方法还包括:
当所述疑似语音帧在所述输入信号中的占比x大于等于第一预设阈值y1时,定义所述加权因子为m;
当所述疑似语音帧在所述输入信号中的占比x小于等于第二预设阈值y2时,定义所述加权因子为n,...

【专利技术属性】
技术研发人员:焦蓓周强徐俊峰
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1