用于智能语音设备的自定义唤醒方法和装置制造方法及图纸

技术编号：22886092 阅读：18 留言：0更新日期：2019-12-21 08:04

本发明专利技术公开用于智能语音设备的自定义唤醒方法和装置，其中，方法，包括：接收用户设定的注册文本并采集用户的注册语音；基于注册文本计算注册唤醒阈值；基于通用唤醒模型计算注册语音的注册唤醒得分，并判断注册唤醒得分是否大于等于注册唤醒阈值；若注册唤醒得分大于等于注册唤醒阈值，将注册语音与注册文本对齐，提取注册文本中每个字对应的语音段；对每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。本申请的方法和装置提供的方案可以在注册阶段优化输入语音质量，从而让系统在计算得分模块更加精细，最终，提高唤醒率同时，还能减少相似词的误唤醒率。

Custom wake up method and device for intelligent voice device

全部详细技术资料下载

【技术实现步骤摘要】
用于智能语音设备的自定义唤醒方法和装置
本专利技术属于语音唤醒
，尤其涉及用于智能语音设备的自定义唤醒方法和装置。
技术介绍
相关技术中，一方面，传统注册语音唤醒方案如下：首先，用户通过设备输入3到5句注册语音(例如你好小驰)，然后，系统会使用注册语音生成该注册用户的语音特征模板。接着，当用户去唤醒设备的时候，系统会用生成好的语音特征模板与注册语音特征进行匹配，并计算出得分，当该得分超过设定阈值即唤醒设备。另一方面，定制唤醒，声纹识别串行方案如下：和注册语音方案一样，用户需要先说，3到5句注册语音，然后，唤醒模块会判断输入语音是否为唤醒词，如果是，送给声纹识别模块，反之则丢弃。接下来，声纹模块使用注册语音，生成声纹识别模型。最后，用户唤醒设备时，需要输入语音分别通过唤醒模块，声纹识别后，设备才会被唤醒。专利技术人在实现本申请的过程中发现：传统注册语音方案至少存在如下缺陷：(1)没有模块去验证注册语音的质量，如果注册语音带有比较大的噪声，或者注册语音的唤醒词不一致的时候，系统性能会急剧下降；(2)由于注册用户，注册场景差异性大，系统无法给出一个精准的阈值，去平衡唤醒率和误唤醒率，而且模型简单，通常性能会比较差；(3)语音词只相差一二个词时，容易误唤醒，由于唤醒得分是直接通过语音特征的整体匹配计算得出，导致相近词得分非常接近。定制唤醒，声纹识别串行方案至少存在如下缺陷：(1)无法注册，因为定制唤醒模块，声纹识别模块，需要预先知道唤醒词；...

【技术保护点】
1.一种用于智能语音设备的自定义唤醒方法，包括：/n接收用户设定的注册文本并采集用户的注册语音；/n基于所述注册文本计算注册唤醒阈值；/n基于通用唤醒模型计算所述注册语音的注册唤醒得分，并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值；/n若所述注册唤醒得分大于等于所述注册唤醒阈值，将所述注册语音与所述注册文本对齐，提取所述注册文本中每个字对应的语音段；/n对所述每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。/n

【技术特征摘要】
1.一种用于智能语音设备的自定义唤醒方法，包括：
接收用户设定的注册文本并采集用户的注册语音；
基于所述注册文本计算注册唤醒阈值；
基于通用唤醒模型计算所述注册语音的注册唤醒得分，并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值；
若所述注册唤醒得分大于等于所述注册唤醒阈值，将所述注册语音与所述注册文本对齐，提取所述注册文本中每个字对应的语音段；
对所述每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。

2.根据权利要求1所述的方法，还包括：
接收用户的输入语音，将所述输入语音切分成多个语音段；
提取所述多个语音段的高斯后验特征，基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分；
若所述第一唤醒得分大于等于第一预设阈值，则基于通用唤醒模型再次计算所述输入语音的第二唤醒得分；
若所述第二唤醒得分大于等于所述通用唤醒模型的第二预设阈值则唤醒所述设备。

3.根据权利要求2所述的方法，其中，所述通用唤醒模型为在噪声集上训练的用于过滤掉信噪比低的以及与注册文本无关的语音的模型。

4.根据权利要求2所述的方法，其中，所述提取所述多个语音段的高斯后验特征，基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分包括：
提取所述多个语音段的高斯后验特征，基于所述特征模板计算所述多个语音段中每一个语音段与所述特征模板中相应的语音段的匹配得分；
基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分。

5.根据权利要求4所述的方法，其中，所述基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分包括根据以下公式计算得到：

其中，i表示第i个语音段，k表示共有k个语音段，SWi表示第i个语音段的匹配得分，SK表示输入语音整体的第一唤醒得分。

6.根据权利要求1所述的方法，其中，...

【专利技术属性】
技术研发人员：陆涛，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人