一种语音唤醒方法、系统及存储介质技术方案

技术编号:39131849 阅读:9 留言:0更新日期:2023-10-23 14:51
本发明专利技术公开一种语音唤醒方法、系统及存储介质,方法包括:1)获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;2)计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒。本发明专利技术通过引入唤醒动态阈值计算及疑似唤醒判断,根据车内环境设置唤醒动态阈值,在置信度与阈值比较的过程中,将部分置信度小于阈值但是又足够接近阈值样本进行二次判断处理,提高唤醒精度,且布置于车端,提高唤醒效率。提高唤醒效率。提高唤醒效率。

【技术实现步骤摘要】
一种语音唤醒方法、系统及存储介质


[0001]本专利技术涉及智能座舱领域,具体涉及一种语音唤醒方法、系统及存储介质。

技术介绍

[0002]语音作为最直接、最便利的交互方式,天然具有比物理触碰交互方式更便捷的属性,得益于技术的不断发展,语音唤醒被应用到越来越多的领域和场景中。语音唤醒技术的实现方案很多,通常包括:基于识别技术的唤醒方案,通过判断识别结果是否包含唤醒词来决定是否唤醒。
[0003]对于二次唤醒方案来说,为了唤醒精度考虑一般第二次唤醒判断用到的大模型计算量复杂,通常只能放置于服务端计算。如此,二次判决效率会受到网络环境约束,如果网络不稳定,二次判决失效不能正确返回大模型判决结果,系统唤醒出现误判。
[0004]因此,需要对现有的语音唤醒技术进一步改进,以期既通过二次唤醒组合一次唤醒提高唤醒识别精度,又能保障二次唤醒计算效率,进一步使其也适用于在车端运行。

技术实现思路

[0005]为了解决现在技术存在的以上问题,本专利技术提供一种语音唤醒方法、系统及存储介质,目的是提升二次唤醒精度、效率,并使其既适用于服务端,更适用于在车端运行。
[0006]本专利技术采用的技术方案如下:
[0007]本专利技术在第一方面,公开一种语音唤醒方法,包括以下步骤,
[0008]步骤1)获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;否则,不唤醒;
[0009]步骤2)计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒。
[0010]所述动态唤醒阈值通过以下方式获得,
[0011]获取当前驾驶舱状态,所述驾驶舱状态包括车辆状态和/或乘客状态,根据不同驾驶舱状态对环境进行评分,根据评分结果查询动态阈值表选择不同唤醒动态阈值。
[0012]以上方案,通过引入唤醒动态阈值计算及疑似唤醒判断,根据车内环境设置唤醒动态阈值,在置信度与阈值比较的过程中,将部分置信度小于阈值但是又足够接近阈值样本进行二次判断处理,可以提高唤醒词的召回率,从而提升二次唤醒的精度。
[0013]进一步地,步骤1)中比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于且在设定范围时,列为疑似唤醒样本。
[0014]优选地,所述设定范围是指小于一次唤醒阈值且大于α乘以一次唤醒阈值,其中α为0到1之间的浮点数。
[0015]进一步地,所述动态阈值表由以下方式构建,
[0016]收集含有车辆状态和乘客状态信息的驾驶舱状态信息,车辆状态信息含空调状态、车速、车窗状态、音乐、电台状态至少之一的因素,乘客状态含说话状态及人数至少之一
的因素,将各因素设置权重,构建驾驶舱环境评分公式,将预期评分结果划分表达安静程度的等级,安静程度越高的等级对应动态阈值越大,将安静程度的等级与对应唤醒动态阈值构建动态阈值表。
[0017]进一步地,所述一次唤醒词置信度、二次唤醒词对应的唤醒词置信度由以下方式获得,
[0018]其中,n表示唤醒阶段的声学特征数量,P表示声学特征的后验概率,SCORE表示唤醒词置信度。
[0019]进一步地,所述声学特征采用唤醒词对应的各个音素。
[0020]进一步地,所述一次唤醒置信度和二次唤醒置信度均是将获取的本次唤醒阶段的声学特征,采用各自阶段的声学模型计算各声学特征的后验概率,再通过唤醒置信度计算而得到;其中在二次唤醒阶段,仅采集二次唤醒阶段的声学特征中的奇数帧或偶数帧的声学特征,将声学特征送入二次唤醒阶段的声学模型。
[0021]进一步地,第一声学模型、第二声学模型由以下方式训练获得,
[0022]步骤a)使用准备好的正负样本训练数据训练GMM

HMM声学模型;
[0023]步骤b)使用训练好的GMM

HMM声学模型对训练数据重新进行对齐;
[0024]步骤c)使用对齐之后的数据训练DNN

HMM音素级声学模型;
[0025]第二声学模型与第一声学模型满足至少以下之一条件:
[0026]第二声学模型的网络层数多于第一声学模型的网络层数;
[0027]第二声学模型至少一个网络层节点数多于第一声学模型的相应网络层节点数。
[0028]本专利技术还公开了一种语音唤醒系统,包括一次唤醒打分模块、动态唤醒阈值计算模块和二次唤醒校验模块;
[0029]所述一次唤醒打分模块获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;否则,不唤醒设备;
[0030]所述二次唤醒校验模块计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒;
[0031]所述动态阈值计算模块获取当前驾驶舱状态,所述驾驶舱状态包括车辆状态和乘客状态,根据不同驾驶舱状态对环境进行评分,根据评分结果动态选择生成不同唤醒动态阈值。
[0032]本专利技术还公开了一种存储介质,其内存储有计算机可读程序,所述计算机可读程序被调用时能执行上述一种语音唤醒方法。
[0033]进一步地,所述存储介质设置在车端。
[0034]本专利技术有益技术效果为:
[0035]1、采用动态唤醒阈值提升二次唤醒精度及效率。二次唤醒判断过程中,调用动态唤醒阈值表确定由车辆状况、乘客状况因素影响的动态阈值,精度更高,且动态唤醒阈值表可被方便存储于车端,规避复杂运算模型仅能布置服务器端要面临的网络不稳定问题,提高唤醒效率,由此使得本系统既适用于服务端,更适用于布置在车端运行。
[0036]2、采用疑似唤醒样本提升召回率从而提升二次唤醒精度。一次唤醒在置信度与阈值比较时,将置信度小于阈值但是又足够接近阈值的案例进行二次判断处理,提高了唤醒
词召回率,实现更为精确的唤醒。
[0037]3、唤醒词置信度抗干扰,提升二次唤醒精度。组成唤醒词的声学特征为音素,将唤醒词分解细化到音素,通过N个音素的后验概率计算再取其乘积的N次开方,使得唤醒词置信度更平滑,结果不会产生跳变,避免一定长度的时间窗内,由于环境噪声的存在,唤醒词置信度可能在某一帧偶然超过唤醒阈值。
[0038]4、一次及二次唤醒联合提升精度及效率。第二声学模型的网络层数节点数多于第一声学模型提高组合唤醒识别精度,为平衡效率,第二特征提取模块仅采集二次唤醒阶段的声学特征中的奇数帧或偶数帧声学特征,降低第二声学模型计算置信度过程中的时延问题。
附图说明
[0039]图1为一种语音唤醒方法流程示意图;
[0040]图2为置信度计算各模块示意图;
[0041]图3为置信度计算流程示意图;
[0042]图4为声学模型训练过程示意图;
[0043]图5为语音唤醒系统的示意图;
[0044]图6为二次唤醒的疑似唤醒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于:包括以下步骤,步骤1)获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;步骤2)计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒;所述动态唤醒阈值通过以下方式获得:获取当前驾驶舱状态,所述驾驶舱状态包括车辆状态和/或乘客状态,根据不同驾驶舱状态进行环境评分,根据评分结果查询动态阈值表选择不同唤醒动态阈值。2.如权利要求1所述语音唤醒方法,其特征在于:步骤1)中比较一次唤醒词置信度与设定的一次唤醒阈值,当小于且在设定范围时,列为疑似唤醒样本,否则,不唤醒。3.如权利要求2所述语音唤醒方法,其特征在于:所述设定范围是指小于一次唤醒阈值且大于α乘以一次唤醒阈值,其中α为0到1之间的浮点数。4.如权利要求1所述的语音唤醒方法,其特征在于:所述动态阈值表由以下方式构建:收集含有车辆状态和乘客状态信息的驾驶舱状态信息,车辆状态信息含空调状态、车速、车窗状态、音乐、电台状态至少之一的因素,乘客状态含说话状态及人数至少之一的因素,将各因素设置权重,构建驾驶舱环境评分公式,将预期评分结果划分表达安静程度的等级,安静程度越高的等级对应动态阈值越大,将安静程度的等级与对应唤醒动态阈值构建动态阈值表。5.如权利要求1所述的语音唤醒方法,其特征在于:所述一次唤醒词置信度、二次唤醒词对应的唤醒词置信度由以下方式获得,其中,n表示唤醒阶段的声学特征的数量,P表示声学特征的后验概率,SCORE表示唤醒词置信度。6.如权利要求5所述的语音唤醒方法,其特征在于:所述声学特征采用唤醒词对应的各个音素。7.如权利要求1至6任一项所述的语音唤醒方法,其特征在于:所述一次唤醒置信度和二次唤醒置信度均是将获取的本次唤醒阶段的声学特征,采用各自阶段的声学模型计算各声学特征的后验概率,再通过唤醒置信度计算而得到;其中在二次唤醒阶段,仅采集二次唤醒阶段的声学特征中的奇数帧或偶数帧的声学特征,将声学特征送入二次唤醒阶段的声学模型。8.如权利要求7所述的语音唤醒方法,其特征在于:所述声学模型由以下方式训练获得,步骤a)使用准备好的正负样本训练数据训练GMM

HMM声学模型;步骤b)使用训练好的GMM

HMM声学模型对训练数据重新进行对齐;步骤c)使用对齐之后的数据训练DNN

HMM音素级声学模型。9.如权利要求8所述的语音唤醒方法,其特征在于:二次唤醒阶段的第二声学模型与一次唤醒阶段的第一声学模型满足至少以下之一条件:第二声学模型的网络层数多于第一声学模型的网络层数;第二声学模型至少一个网络层节点数多于第一声学模型的相应网络层节点数。
10.一种语音唤醒系统,其特征在于:包括一次唤醒打分模块、动态唤醒阈值计算模块和二次唤醒校验模块;所述一次唤醒打分模块获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;否则,不唤醒;所述二次唤醒校验模块计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒;所述动态阈值计算模块获取当前驾驶舱状态,所述驾驶舱状态包括车辆状态和乘客状态,根据不同驾驶舱状态对环境进行评分,根据评分结果查询动态阈值表动态选择生成不同唤醒动态阈值。11....

【专利技术属性】
技术研发人员:张志辉
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1