一种结合声纹识别的语音唤醒方法及装置制造方法及图纸

技术编号:17657244 阅读:23 留言:0更新日期:2018-04-08 09:48
本发明专利技术实施例公开了一种结合声纹识别的语音唤醒方法及装置。本发明专利技术中先通过待验证语音的MFCC特征判断待验证语音中的内容是否为预置的唤醒词,如果是,则通过预置的深度神经网络模型提取i‑vector向量,通过i‑vector向量进行声纹识别确认说话人身份,获取待验证语音的权限值,并根据说话人的权限值与待验证语音对应的预置的唤醒词对应的权限值的比较结果判断说话人是否有足够的权限,如果有,则执行与待验证语音对应的预置的唤醒词对应的操作,解决了当前电子产品的语音唤醒功能缺乏用户鉴权功能,无法进行用户鉴权以实现更加复杂和需要用户权限的设备操作的技术问题。

【技术实现步骤摘要】
一种结合声纹识别的语音唤醒方法及装置
本专利技术涉及声纹应用领域,尤其涉及一种结合声纹识别的语音唤醒方法及装置。
技术介绍
语音唤醒指的是用户通过说出一句预设的唤醒词来实现电子设备从待机状态恢复到正常工作状态。通过语音唤醒,用户可以在不方便点击电子屏幕的情况下通过语音唤醒功能实现对电子设备的操作。但是当前的具备语音唤醒功能的电子产品缺少对说话人身份识别的功能,无法判断说话人身份,因此无法进一步开放权限,只能实现一些简单的,无需用户权限的设备操作。因此,导致了当前电子产品的语音唤醒功能缺乏用户鉴权功能,无法进行用户鉴权以实现更加复杂和需要用户权限的设备操作的技术问题。
技术实现思路
本专利技术提供了一种结合声纹识别的语音唤醒方法及装置,解决了当前电子产品的语音唤醒功能缺乏用户鉴权功能,无法进行用户鉴权以实现更加复杂和需要用户权限的设备操作的技术问题。本专利技术提供了一种结合声纹识别的语音唤醒方法,包括:S1:接收待验证语音并进行特征提取,获取待验证语音的MFCC特征;S2:对预置时段内的待验证语音的MFCC特征进行缓存;S3:根据缓存的待验证语音的MFCC特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤S4;S4:将缓存的待验证语音的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量;S5:将待验证语音的i-vector向量和预置的i-vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作。优选地,步骤S4具体包括:S41:将缓存的待验证语音的MFCC特征进行级联;S42:将级联后的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量,并通过级联后的MFCC特征将预置的深度神经网络模型更新为新的预置的深度神经网络模型。优选地,步骤S5具体包括:S51:将待验证语音的i-vector向量和预置的i-vector向量进行正归化处理,将正归化处理后的待验证语音的i-vector向量和预置的i-vector向量通过概论线性区分性分析模型进行比对,获取到比对得出的匹配分数;S52:将匹配分数加上偏移补偿分数,获取新的匹配分数;S53:根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行步骤S54;S54:执行与待验证语音对应的预置的唤醒词对应的操作。优选地,步骤S5还包括:步骤S55;步骤S53具体包括:根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行步骤S54,若否,则执行步骤S55;S55:发送权限不足的提示。本专利技术提供了一种结合声纹识别的语音唤醒装置,包括:特征单元,用于接收待验证语音并进行特征提取,获取待验证语音的MFCC特征;缓存单元,用于对预置时段内的待验证语音的MFCC特征进行缓存;唤醒单元,用于根据缓存的待验证语音的MFCC特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤S4;向量单元,用于将缓存的待验证语音的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量;比对单元,用于将待验证语音的i-vector向量和预置的i-vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作。优选地,向量单元具体包括:级联子单元,用于将缓存的待验证语音的MFCC特征进行级联;获取子单元,用于将级联后的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量,并通过级联后的MFCC特征将预置的深度神经网络模型更新为新的预置的深度神经网络模型。优选地,比对单元具体包括:匹配子单元,用于将待验证语音的i-vector向量和预置的i-vector向量进行正归化处理,将正归化处理后的待验证语音的i-vector向量和预置的i-vector向量通过概论线性区分性分析模型进行比对,获取到比对得出的匹配分数;补偿子单元,用于将匹配分数加上偏移补偿分数,获取新的匹配分数;判断子单元,用于根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则触发执行子单元;执行子单元,用于执行与待验证语音对应的预置的唤醒词对应的操作。优选地,比对单元还包括:提示子单元;判断子单元具体用于根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则触发执行子单元,若否,则触发提示子单元;提示子单元,用于发送权限不足的提示。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供了一种结合声纹识别的语音唤醒方法,包括:S1:接收待验证语音并进行特征提取,获取待验证语音的MFCC特征;S2:对预置时段内的待验证语音的MFCC特征进行缓存;S3:根据缓存的待验证语音的MFCC特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤S4;S4:将缓存的待验证语音的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量;S5:将待验证语音的i-vector向量与预置的i-vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作。本专利技术中先通过待验证语音的MFCC特征判断待验证语音中的内容是否为预置的唤醒词,如果是,则通过预置的深度神经网络模型提取i-vector向量,通过i-vector向量进行声纹识别确认说话人身份,获取待验证语音的权限值,并根据说话人的权限值与待验证语音对应的预置的唤醒词对应的权限值的比较结果判断说话人是否有足够的权限,如果有,则执行与待验证语音对应的预置的唤醒词对应的操作,解决了当前电子产品的语音唤醒功能缺乏用户鉴权功能,无法进行用户鉴权以实现更加复杂和需要用户权限的设备操作的技术问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种结合声纹识别的语音唤醒方法的一个实施例的流程示意图;图2为本专利技术实施例提供的一种结合声纹识别的语音唤醒方法的另一个实施例的流程示意图;图3为本专利技术实施例提供的一种结合声纹识别的语音唤醒装置的一个实施例的结构示意图。具体实施方式本专利技术实施例提供了一种结合声纹识别的语音唤醒方法及装置,解决了当前电子产品的语音唤醒功能缺乏用户鉴权功能,无法进行用户鉴权以实现更加复杂和需要用户权限的设备操作的技术问题。本文档来自技高网...
一种结合声纹识别的语音唤醒方法及装置

【技术保护点】
一种结合声纹识别的语音唤醒方法,其特征在于,包括:S1:接收待验证语音并进行特征提取,获取待验证语音的MFCC特征;S2:对预置时段内的待验证语音的MFCC特征进行缓存;S3:根据缓存的待验证语音的MFCC特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤S4;S4:将缓存的待验证语音的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i‑vector向量;S5:将待验证语音的i‑vector向量和预置的i‑vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作。

【技术特征摘要】
1.一种结合声纹识别的语音唤醒方法,其特征在于,包括:S1:接收待验证语音并进行特征提取,获取待验证语音的MFCC特征;S2:对预置时段内的待验证语音的MFCC特征进行缓存;S3:根据缓存的待验证语音的MFCC特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤S4;S4:将缓存的待验证语音的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量;S5:将待验证语音的i-vector向量和预置的i-vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作。2.根据权利要求1所述的一种结合声纹识别的语音唤醒方法,其特征在于,步骤S4具体包括:S41:将缓存的待验证语音的MFCC特征进行级联;S42:将级联后的MFCC特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量,并通过级联后的MFCC特征将预置的深度神经网络模型更新为新的预置的深度神经网络模型。3.根据权利要求1所述的一种结合声纹识别的语音唤醒方法,其特征在于,步骤S5具体包括:S51:将待验证语音的i-vector向量和预置的i-vector向量进行正归化处理,将正归化处理后的待验证语音的i-vector向量和预置的i-vector向量通过概论线性区分性分析模型进行比对,获取到比对得出的匹配分数;S52:将匹配分数加上偏移补偿分数,获取新的匹配分数;S53:根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行步骤S54;S54:执行与待验证语音对应的预置的唤醒词对应的操作。4.根据权利要求3所述的一种结合声纹识别的语音唤醒方法,其特征在于,步骤S5还包括:步骤S55;步骤S53具体包括:根据新的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行步骤S54,若否,则执行步骤S55;S55:发送权限不足的提示。5.一种结合声纹识别的语音唤醒装置,其特征在于...

【专利技术属性】
技术研发人员:陈东鹏
申请(专利权)人:广州势必可赢网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1