一种语音唤醒方法、终端及存储介质技术

技术编号:34019408 阅读:18 留言:0更新日期:2022-07-02 16:34
本申请提供一种语音唤醒方法,应用于一终端,所述终端上设有麦克风阵列和唤醒引擎,包括:通过所述麦克风阵列实时采集音频声源,对所述音频声源做回声消除,确定消除后的多路音频;计算所述多路音频的到来角;识别所述多路音频的到来角信息中出现到来角角度

【技术实现步骤摘要】
一种语音唤醒方法、终端及存储介质


[0001]本申请涉及语音唤醒
,具体涉及一种语音唤醒方法、终端及存储介质。

技术介绍

[0002]唤醒词广泛使用在语音识别的智能设备中。对唤醒词识别引擎性能的影响因素主要是识别率和误识别率,这两者是互相联系的,要想得到更高的识别率,误识别率往往也相应升高。追求的效果是识别率高并且误识别率低。
[0003]在智能设备播放音乐,新闻等点播内容时进行打断唤醒,此时有较大的回声干扰,严重影响唤醒词识别,当前一般使用回声消除(AEC)来消除回声的干扰,AEC的性能极大的影响打断唤醒的效果。
[0004]AEC的抑制能力是有限的,即使在良好的声学设计的系统中,当前AEC广泛采用的自适应线性滤波技术加残余回声后处理技术一般也只能对声学回声提供20

40dB的抑制。然而智能设备为了满意的响度经常会使用大功率喇叭,并且由于尺寸限制,喇叭还会很靠近麦克风,而同时往往要求远场唤醒。造成系统的信回比很小,回声能量远大于信号能量。
[0005]在实际设备中,由于成本和尺寸等限制,回声通路往往存在严重的非线性情况,通常由于低成本的喇叭,麦克风性能不佳,设备结构共振等因素引起。而目前AEC主要消除线性回声,对非线性回声的消除不理想,非线性回声会有较大残留。
[0006]所以在上述情况下,AEC有时无法较好的消除回声,导致AEC之后还有较强残留回声,这些残留回声会导致语音唤醒引擎的唤醒率降低,误唤醒率增加。
[0007]前面的叙述在于提供一般的背景信息,并不一定构成现有技术。

技术实现思路

[0008]本申请的目的在于,提供一种提高识别率的语音唤醒方法、终端及存储介质。
[0009]本专利技术提供一种语音唤醒方法,应用于一终端,所述终端上设有麦克风阵列和唤醒引擎,包括:
[0010]通过所述麦克风阵列实时采集音频声源,对所述音频声源做回声消除,确定消除后的多路音频;
[0011]计算所述多路音频的到来角;
[0012]识别所述多路音频的到来角信息中出现到来角角度

时间变化包络;
[0013]所述唤醒引擎识别唤醒词;
[0014]所述唤醒引擎唤醒所述终端。
[0015]进一步地,所述唤醒引擎唤醒所述终端,包括:
[0016]当识别到所述多路音频的到来角信息中出现到来角角度

时间变化包络,所述唤醒引擎在该时间区间内接收到的所述多路音频中识别所述唤醒词,所述唤醒引擎在识别到所述唤醒词后唤醒所述终端。
[0017]进一步地,所述唤醒引擎唤醒所述终端,包括:
[0018]当所述唤醒引擎识别到所述唤醒词后,确认所述多路音频的到来角信息中出现到来角角度

时间变化包络,所述唤醒引擎唤醒唤醒所述终端。
[0019]进一步地,还包括:
[0020]对比所述多路音频在回声消除前后的到来角置信度差异。
[0021]进一步地,所述唤醒引擎唤醒所述终端,包括:
[0022]当所述唤醒引擎识别到所述唤醒词后,对比所述多路音频在回声消除前后的到来角置信度差异,当出现到来角置信度差异包络时,确认所述多路音频的到来角信息中出现到来角角度

时间变化包络后唤醒所述终端。
[0023]进一步地,还包括:
[0024]在计算所述多路音频的到来角后,对所述多路音频的到来角做平滑处理。
[0025]进一步地,所述到来角角度

时间变化包络为:在到来角序列中,检测到到来角的角度变化超过第一预设值并持续第一预设时间后到来角回到第一预设值内,提取此角度变化

维持

返回的时间段,称其为到来角角度

时间变化包络。
[0026]进一步地,所述到来角置信度差异包络为:在到来角置信度序列中,检测到到来角置信度的变化超过第二预设值并持续第二预设时间后到来角置信度回到第二预设值内,提取此置信度变化

维持

返回的时间段,称其为到来角置信度差异包络。
[0027]本专利技术还提供一种终端,包括存储器与处理器,所述存储器用于存储至少一条程序指令,所述处理器用于通过加载并执行所述至少一条程序指令以实现如上所述的语音唤醒方法。
[0028]本专利技术还提供存储介质,所述存储介质上存储有程序指令;所述程序指令被处理器执行时实现如上所述的语音唤醒方法。
[0029]本专利技术提供的语音唤醒方法,通过识别到来角角度

时间变化包络来提高唤醒引擎的识别率,由于回声的角度由喇叭相对麦克风的位置,以及房间声学特性确定,它往往比较固定或随时间缓慢变化、相对平稳,而唤醒词的角度大部分时候和回声的角度不一致并随唤醒词出现和消失,当唤醒词出现时语音到来角可以看到比较明显的短时到来角角度

时间变化包络,它从回声的角度过度到唤醒词的角度,持续短时间后,又回到残留回声角度。当回音和语音角度相近或相同的情况下,唤醒词到来角与回音的到来角相近,通过比对回音消除前后的到来角置信度的差异来辅助区分回声和语音,回声成分在回声消除后被降低,相应的回声消除前后其到来角置信度会有明显降低,而唤醒词语音成分不会被消除,置信度不会明显改变。
[0030]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0031]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0032]图1是本专利技术第一实施例提供的一种语音唤醒方法的流程图;
[0033]图2是本专利技术第二实施例提供的一种语音唤醒方法的流程图;
[0034]图3是本专利技术第三实施例提供的一种语音唤醒方法的流程图。
具体实施方式
[0035]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0036]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,应用于一终端,所述终端上设有麦克风阵列和唤醒引擎,其特征在于,包括:通过所述麦克风阵列实时采集音频声源,对所述音频声源做回声消除,确定消除后的多路音频;计算所述多路音频的到来角;识别所述多路音频的到来角信息中出现到来角角度

时间变化包络;所述唤醒引擎识别唤醒词;所述唤醒引擎唤醒所述终端。2.如权利要求1所述的语音唤醒方法,其特征在于,所述唤醒引擎唤醒所述终端,包括:当识别到所述多路音频的到来角信息中出现到来角角度

时间变化包络,所述唤醒引擎在该时间区间内接收到的所述多路音频中识别所述唤醒词,所述唤醒引擎在识别到所述唤醒词后唤醒所述终端。3.如权利要求1所述的语音唤醒方法,其特征在于,所述唤醒引擎唤醒所述终端,包括:当所述唤醒引擎识别到所述唤醒词后,确认所述多路音频的到来角信息中出现到来角角度

时间变化包络,所述唤醒引擎唤醒唤醒所述终端。4.如权利要求3所述的语音唤醒方法,其特征在于,还包括:对比所述多路音频在回声消除前后的到来角置信度差异。5.如权利要求4所述的语音唤醒方法,其特征在于,所述唤醒引擎唤醒所述终端,包括:当所述唤醒引擎识别到所述唤醒词后,对比所述多路音频在回声消除前后的到来角置信度差异,当出现到来角置信度差异包络时,确认所述多路音频的到来角信息...

【专利技术属性】
技术研发人员:蒋非颖刘爱锋
申请(专利权)人:深圳市未艾智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1