一种语音唤醒方法、装置及计算机可读存储介质制造方法及图纸

技术编号:24462172 阅读:25 留言:0更新日期:2020-06-10 17:20
本发明专利技术提供了一种语音唤醒方法,其包括:获取当前帧语音信号,并计算当前帧语音信号的包络值;根据预设时间内获取的语音信号计算当前帧语音信号的第一实时阈值;判断当前帧语音信号的包络值是否超过当前帧语音信号的第一实时阈值;若当前帧语音信号的包络值超过当前帧语音信号的第一实时阈值,则唤醒目标语音处理系统。利用该语音唤醒方法,能够减少系统的运行功耗,本发明专利技术还提供了相应的语音唤醒装置以及计算机可读存储介质。

A speech wake-up method, device and computer readable storage medium

【技术实现步骤摘要】
一种语音唤醒方法、装置及计算机可读存储介质
本专利技术属于信号处理领域,具体涉及一种语音唤醒方法、装置及计算机可读存储介质。
技术介绍
近些年随着语音助手的不断流行,行业内越来越迫切的需要一种芯片可以超低功耗的运行,进而在检测到声音的时候唤醒整个系统。现有技术中,通常采用语音端点检测(VoiceActivityDetection,简称VAD)实现上述唤醒。语音端点检测可以连续声音信号中找出人声语音部分的起始点。简单的语音端点检测方法主要包括:首先基于固定窗口对语音信号进行分割,而后获取各语音信号的一个或多个特征,例如,全频带能量、低频带能量或过零率,并基于预设的算法以及上述多个特征来估计语音信号的端点。近年来,端点检测算法的优化过程偏向于运算准确性的发展趋势,同时也带来越来越大的运算量,而智能设备却越来越倾向于轻型化发展趋势,因此,利用现有技术中的语音段点检测算法所得到的系统唤醒方法或装置过多的消耗了计算资源与硬件设备,难以找到一种以超低功耗运行的唤醒方法或装置。
技术实现思路
针对上述现有语音端点检测算法越来越复杂,进一步导致难以找到一种以超低功耗运行的唤醒方法或装置这一问题,提出了一种语音唤醒方法、装置及计算机可读存储介质,其能基于较少的运算量与较少的硬件需求实现较高准确度的目标语音处理系统的语音唤醒。依据本专利技术的第一方面,提供了一种语音唤醒方法,其特征在于,所述方法包括:获取当前帧语音信号,并计算所述当前帧语音信号的包络值;根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值;判断所述当前帧语音信号的包络值是否超过所述当前帧语音信号的第一实时阈值;若所述当前帧语音信号的包络值超过所述当前帧语音信号的第一实时阈值,则唤醒目标语音处理系统。优选地,其中,所述计算所述当前帧语音信号的包络值包括:对所述当前帧语音信号的短时能量执行第一运算操作,得到所述当前帧语音信号的包络值;其中,对所述当前帧语音信号的短时能量执行第一运算操作至少包括对所述当前帧语音信号的短时能量执行开平方运算。优选地,其中,所述根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值包括:若所述当前帧语音信号为初始帧语音信号,则根据所述预设时间内获取的语音信号获取初始阈值,并将所述初始阈值设置为所述当前帧语音信号的所述第一实时阈值;若所述当前帧语音信号为非初始帧语音信号,则根据预设规则更新所述当前帧语音信号的上一帧语音信号的第二实时阈值,以获取所述当前帧语音信号的所述第一实时阈值。优选地,其中,所述根据预设规则更新所述当前帧语音信号的上一帧语音信号的第二实时阈值,以获取所述当前帧语音信号的所述第一实时阈值包括:对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作以获取中间值;判断所述中间值是否超过所述第二实时阈值,并根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值。优选地,其中,对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作包括以下中的至少一种:对所述当前帧语音信号的上一帧语音信号的包络值乘以第一预设系数;对所述当前帧语音信号的上一帧语音信号的包络值加上第二预设系数。优选地,其中,所述根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值包括:若所述中间值超过所述第二实时阈值,则所述第一实时阈值大于所述第二实时阈值,对所述上一帧语音信号的所述第二实时阈值增加第三预设系数和/或乘以第四预设系数,从而得到所述当前帧语音信号的第一实时阈值;若所述中间值未超过所述第二实时阈值,则所述第一实时阈值不大于所述第二实时阈值,对所述上一帧语音信号的第二实时阈值减去第五预设系数和/或乘以第六预设系数,从而得到所述当前帧语音信号的第一实时阈值。优选地,其中,所述方法还包括:响应于所述唤醒所述目标语音处理系统,控制所述目标语音处理系统进入预设时长的触发冷却期;在所述触发冷却期内,所述目标语音处理系统不再被唤醒。依据本专利技术的第二方面,还提供了一种语音唤醒装置,其特征在于,所述装置包括:获取模块,用于获取当前帧语音信号,并计算所述当前帧语音信号的包络值;阈值模块,用于根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值;判断模块,用于判断所述当前帧语音信号的包络值是否超过所述当前帧语音信号的第一实时阈值;唤醒模块,用于若所述当前帧语音信号的包络值超过所述当前帧语音信号的第一实时阈值,则唤醒目标语音处理系统。优选地,其中,所述获取模块进一步用于:对所述当前帧语音信号的短时能量执行第一运算操作,得到所述当前帧语音信号的包络值;其中,对所述当前帧语音信号的短时能量执行第一运算操作至少包括对所述当前帧语音信号的短时能量执行开平方运算。优选地,其中,所述阈值模块进一步包括初始阈值模块与阈值更新模块,其中,所述初始阈值模块用于,若所述当前帧语音信号为初始帧语音信号,则根据所述预设时间内获取的语音信号获取初始阈值,并将所述初始阈值设置为所述当前帧语音信号的所述第一实时阈值;所述阈值更新模块用于,若所述当前帧语音信号为非初始帧语音信号,则根据预设规则更新所述当前帧语音信号的上一帧语音信号的第二实时阈值,以获取所述当前帧语音信号的所述第一实时阈值。优选地,其中,所述阈值更新模块进一步用于:对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作以获取中间值;判断所述中间值是否超过所述第二实时阈值,并根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值。优选地,其中,对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作包括以下中的至少一种:对所述当前帧语音信号的上一帧语音信号的包络值乘以第一预设系数;对所述当前帧语音信号的上一帧语音信号的包络值加上第二预设系数。优选地,其中,所述根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值包括:若所述中间值超过所述第二实时阈值,则所述第一实时阈值大于所述第二实时阈值,对所述上一帧语音信号的所述第二实时阈值增加第三预设系数和/或乘以第四预设系数,从而得到所述当前帧语音信号的第一实时阈值;若所述中间值未超过所述第二实时阈值,则所述第一实时阈值不大于所述第二实时阈值,对所述上一帧语音信号的第二实时阈值减去第五预设系数和/或乘以第六预设系数,从而得到所述当前帧语音信号的第一实时阈值。优选地,其中,所述装置还包括唤醒模块,用于:响应于所述唤醒所述目标语音处理系统,控制所述目标语音处理系统进入预设时长的触发冷却期;在所述触发冷却期内,所述目标语音处理系统不再被唤醒。依据本专利技术的第三方面,还提供了一种语音唤醒装置,其特征在于,包括:一个或者多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,所述方法包括:/n获取当前帧语音信号,并计算所述当前帧语音信号的包络值;/n根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值;/n判断所述当前帧语音信号的包络值是否超过所述当前帧语音信号的第一实时阈值;/n若所述当前帧语音信号的包络值超过所述当前帧语音信号的第一实时阈值,则唤醒目标语音处理系统。/n

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,所述方法包括:
获取当前帧语音信号,并计算所述当前帧语音信号的包络值;
根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值;
判断所述当前帧语音信号的包络值是否超过所述当前帧语音信号的第一实时阈值;
若所述当前帧语音信号的包络值超过所述当前帧语音信号的第一实时阈值,则唤醒目标语音处理系统。


2.根据权利要求1所述的方法,其特征在于,所述计算所述当前帧语音信号的包络值包括:
对所述当前帧语音信号的短时能量执行第一运算操作,得到所述当前帧语音信号的包络值;
其中,对所述当前帧语音信号的短时能量执行第一运算操作至少包括对所述当前帧语音信号的短时能量执行开平方运算。


3.根据权利要求1所述的方法,其特征在于,
所述根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值包括:
若所述当前帧语音信号为初始帧语音信号,则根据所述预设时间内获取的语音信号获取初始阈值,并将所述初始阈值设置为所述当前帧语音信号的所述第一实时阈值;
若所述当前帧语音信号为非初始帧语音信号,则根据预设规则更新所述当前帧语音信号的上一帧语音信号的第二实时阈值,以获取所述当前帧语音信号的所述第一实时阈值。


4.根据权利要求3所述的方法,其特征在于,
所述根据预设规则更新所述当前帧语音信号的上一帧语音信号的第二实时阈值,以获取所述当前帧语音信号的所述第一实时阈值包括:
对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作以获取中间值;
判断所述中间值是否超过所述第二实时阈值,并根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值。


5.根据权利要求4所述的方法,其特征在于,对所述当前帧语音信号的上一帧语音信号的包络值进行第二运算操作包括以下中的至少一种:
对所述当前帧语音信号的上一帧语音信号的包络值乘以第一预设系数;
对所述当前帧语音信号的上一帧语音信号的包络值加上第二预设系数。


6.根据权利要求4所述的方法,其特征在于,所述根据判断结果对所述第二实时阈值进行更新以获取所述第一实时阈值包括:
若所述中间值超过所述第二实时阈值,则所述第一实时阈值大于所述第二实时阈值,对所述上一帧语音信号的所述第二实时阈值增加第三预设系数和/或乘以第四预设系数,从而得到所述当前帧语音信号的第一实时阈值;
若所述中间值未超过所述第二实时阈值,则所述第一实时阈值不大于所述第二实时阈值,对所述上一帧语音信号的第二实时阈值减去第五预设系数和/或乘以第六预设系数,从而得到所述当前帧语音信号的第一实时阈值。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述唤醒所述目标语音处理系统,控制所述目标语音处理系统进入预设时长的触发冷却期;
在所述触发冷却期内,所述目标语音处理系统不再被唤醒。


8.一种语音唤醒装置,其特征在于,所述装置包括:
获取模块,用于获取当前帧语音信号,并计算所述当前帧语音信号的包络值;
阈值模块,用于根据预设时间内获取的语音信号计算所述当前帧语音信号的第一实时阈值;
判断模块,用于判断所述当前帧语音信号的包络值是否超过所述当前帧语音信号的第一实时阈值;
唤醒模块,用于若所...

【专利技术属性】
技术研发人员:叶振昀王彦谢鑫高威特张楠赓
申请(专利权)人:杭州嘉楠耘智信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1