用于智能语音设备的自定义唤醒方法和装置制造方法及图纸

技术编号:22886092 阅读:18 留言:0更新日期:2019-12-21 08:04
本发明专利技术公开用于智能语音设备的自定义唤醒方法和装置,其中,方法,包括:接收用户设定的注册文本并采集用户的注册语音;基于注册文本计算注册唤醒阈值;基于通用唤醒模型计算注册语音的注册唤醒得分,并判断注册唤醒得分是否大于等于注册唤醒阈值;若注册唤醒得分大于等于注册唤醒阈值,将注册语音与注册文本对齐,提取注册文本中每个字对应的语音段;对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。本申请的方法和装置提供的方案可以在注册阶段优化输入语音质量,从而让系统在计算得分模块更加精细,最终,提高唤醒率同时,还能减少相似词的误唤醒率。

Custom wake up method and device for intelligent voice device

【技术实现步骤摘要】
用于智能语音设备的自定义唤醒方法和装置
本专利技术属于语音唤醒
,尤其涉及用于智能语音设备的自定义唤醒方法和装置。
技术介绍
相关技术中,一方面,传统注册语音唤醒方案如下:首先,用户通过设备输入3到5句注册语音(例如你好小驰),然后,系统会使用注册语音生成该注册用户的语音特征模板。接着,当用户去唤醒设备的时候,系统会用生成好的语音特征模板与注册语音特征进行匹配,并计算出得分,当该得分超过设定阈值即唤醒设备。另一方面,定制唤醒,声纹识别串行方案如下:和注册语音方案一样,用户需要先说,3到5句注册语音,然后,唤醒模块会判断输入语音是否为唤醒词,如果是,送给声纹识别模块,反之则丢弃。接下来,声纹模块使用注册语音,生成声纹识别模型。最后,用户唤醒设备时,需要输入语音分别通过唤醒模块,声纹识别后,设备才会被唤醒。专利技术人在实现本申请的过程中发现:传统注册语音方案至少存在如下缺陷:(1)没有模块去验证注册语音的质量,如果注册语音带有比较大的噪声,或者注册语音的唤醒词不一致的时候,系统性能会急剧下降;(2)由于注册用户,注册场景差异性大,系统无法给出一个精准的阈值,去平衡唤醒率和误唤醒率,而且模型简单,通常性能会比较差;(3)语音词只相差一二个词时,容易误唤醒,由于唤醒得分是直接通过语音特征的整体匹配计算得出,导致相近词得分非常接近。定制唤醒,声纹识别串行方案至少存在如下缺陷:(1)无法注册,因为定制唤醒模块,声纹识别模块,需要预先知道唤醒词;(2)需要花费人力,物力,收集大量唤醒词语料,训练唤醒模型,声纹识别模型;(3)加入声纹识别模块,通常是基于神经网络模型,会增大计算量,无法在一些低功耗场景下使用。
技术实现思路
本专利技术实施例提供一种用于智能语音设备的自定义唤醒方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种用于智能语音设备的自定义唤醒方法,包括:接收用户设定的注册文本并采集用户的注册语音;基于所述注册文本计算注册唤醒阈值;基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。第二方面,本专利技术实施例提供一种用于智能语音设备的自定义唤醒装置,包括:注册模块,配置为接收用户设定的注册文本并采集用户的注册语音;阈值计算模块,配置为基于所述注册文本计算唤醒阈值;通用判断模块,配置为基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述唤醒阈值;对齐提取模块,配置为若所述注册唤醒得分大于等于所述唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;模板生成模块,配置为对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的用于智能语音设备的自定义唤醒方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的用于智能语音设备的自定义唤醒方法的步骤。本申请的方法和装置提供的方案通过在注册阶段优化输入语音质量,从而让系统在计算得分模块更加精细,最终,提高唤醒率同时,还能减少相似词的误唤醒率,有效提升产品的用户体验。进一步地,注册唤醒只使用简单的特征比对,计算量低,适合在低功耗场景使用,加入通用唤醒模块,提高整体唤醒性能,在计算量和性能之间做出有效平衡,可以确保方案在实际中的可行性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种用于智能语音设备的自定义唤醒方法的流程图;图2为本专利技术一实施例提供的另一种用于智能语音设备的自定义唤醒方法的流程图;图3为本专利技术一实施例提供的又一种用于智能语音设备的自定义唤醒方法的流程图;图4为本专利技术一实施例提供的再一种用于智能语音设备的自定义唤醒方法的流程图;图5和图6分别为本专利技术一实施例提供的一种用于智能语音设备的自定义唤醒方法的具体示例图的注册流程图和测试及使用流程图;图7为本专利技术一实施例提供的一种用于智能语音设备的自定义唤醒装置的框图;图8是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的用于智能语音设备的自定义唤醒方法一实施例的流程图,本实施例的用于智能语音设备的自定义唤醒方法可以适用于具备智能语音对话唤醒和识别功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒和识别的智能终端等。如图1所示,在步骤101中,接收用户设定的注册文本并采集用户的注册语音;在步骤102中,基于注册文本计算注册唤醒阈值;在步骤103中,基于通用唤醒模型计算注册语音的注册唤醒得分,并判断注册唤醒得分是否大于等于注册唤醒阈值;在步骤104中,若注册唤醒得分大于等于注册唤醒阈值,将注册语音与注册文本对齐,提取注册文本中每个字对应的语音段;在步骤105中,对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。在本实施例中,对于步骤101,对于用户自定义唤醒词的情况,自定义唤醒装置首先需要接收用户设定的注册文本,即用户的自定义唤醒词,之后采集该用户的注册语音。然后,对于步骤102,基于用户提供的注册文本计算相应的唤醒阈值。其中,阈值是根据误唤醒次数来设置的,阈值越大,误唤醒的次数越少。通常实际应用产品要保证在24小时内,误唤醒次数要<=1。需要准备100小时的噪声音频,调整阈值满足误唤醒要求。之后,对于步骤103,将注册语音输入至通用唤醒模型中,通过计算注本文档来自技高网
...

【技术保护点】
1.一种用于智能语音设备的自定义唤醒方法,包括:/n接收用户设定的注册文本并采集用户的注册语音;/n基于所述注册文本计算注册唤醒阈值;/n基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;/n若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;/n对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。/n

【技术特征摘要】
1.一种用于智能语音设备的自定义唤醒方法,包括:
接收用户设定的注册文本并采集用户的注册语音;
基于所述注册文本计算注册唤醒阈值;
基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;
若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;
对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。


2.根据权利要求1所述的方法,还包括:
接收用户的输入语音,将所述输入语音切分成多个语音段;
提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分;
若所述第一唤醒得分大于等于第一预设阈值,则基于通用唤醒模型再次计算所述输入语音的第二唤醒得分;
若所述第二唤醒得分大于等于所述通用唤醒模型的第二预设阈值则唤醒所述设备。


3.根据权利要求2所述的方法,其中,所述通用唤醒模型为在噪声集上训练的用于过滤掉信噪比低的以及与注册文本无关的语音的模型。


4.根据权利要求2所述的方法,其中,所述提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分包括:
提取所述多个语音段的高斯后验特征,基于所述特征模板计算所述多个语音段中每一个语音段与所述特征模板中相应的语音段的匹配得分;
基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分。


5.根据权利要求4所述的方法,其中,所述基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分包括根据以下公式计算得到:



其中,i表示第i个语音段,k表示共有k个语音段,SWi表示第i个语音段的匹配得分,SK表示输入语音整体的第一唤醒得分。


6.根据权利要求1所述的方法,其中,...

【专利技术属性】
技术研发人员:陆涛
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1