【技术实现步骤摘要】
语音唤醒方法、装置及可读存储介质
[0001]本专利技术实施例涉及语音处理
,尤其涉及语音唤醒方法、装置及可读存储介质和计算机程序产品。
技术介绍
[0002]目前,智能音箱等交互产品被广泛应用,语音交互成为最直接的控制方式,使得人机交互更加智能和人性化。相关技术中,语音唤醒是语音交互过程中的一个重要环节。
[0003]各类交互产品中,为了提高语音唤醒率,同时降低误唤醒率,通常会对采集的音频进行语音活动检测(VAD,Voice Activity Detection),只有检测为语音的音频才会被送入到语音唤醒模型进行唤醒判断。然而目前为了保证语音唤醒模块判断是否为唤醒词的速度,减少用户等待时间,前端的VAD模块通常采用传统信号处理的算法,甚至单纯采用短时能量、短时平均过零率等简单指标的组合判别方法。虽然基于传统信号处理的VAD方法,可以降低VAD模块的判断时间,但是容易将非语音误判成语音,送入到唤醒模块后,从而导致误唤醒的发生。
技术实现思路
[0004]本专利技术提出语音唤醒方法、装置及可读存储 ...
【技术保护点】
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,该方法包括:语音活动检测解码层获取由语音活动检测编码层已编码的深层特征,所述深层特征从用于语音活动检测编码和语音唤醒编码的数字音频信号中提取;根据所述数字音频信号中的每一音频帧的语音概率,判断所述数字音频信号中的每一音频段是否为语音,所述每一音频段包含多个音频帧;针对每一音频段,若该音频段为语音,则语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层,进行语音唤醒。2.根据权利要求1所述的方法,其特征在于,所述根据所述数字音频信号中的每一音频帧的语音概率,判断所述数字音频信号中的每一音频段是否为语音,包括:对于每一音频帧,若该音频帧的语音概率大于预设第一阈值,则判定该音频帧为语音帧;对于每一音频段,统计该音频段中包含语音帧的数目,若该数目大于预设第二阈值,则判定该音频段为语音。3.根据权利要求1所述的方法,其特征在于,所述语音活动检测编码层的结构为:两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层;所述语音活动检测解码层的结构为:一个全连接层。4.根据权利要求1所述的方法,其特征在于,所述语音唤醒解码层的结构为:两个二维卷积层、一个池化层和一个全连接层。5.根据权利要求1所述的方法,其特征在于,语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层,包括:语音活动检测解码层判断该音频段为语音,则缓存该深层特征,若每一音频段的长度小于预设长度值,则判定为语音的、且还未进行语音唤醒的各音频段的总长度大于等于预设长度值时,语音活动检测解码层指示语音活动检测编码层将所述判定为语音的、且还未进行语音唤醒的各音频段的深层特征输入到语音唤醒解码层;所述预设长度值大于或等于预设的唤醒词的长度。6.根据权利要求5所述的方法,其特征在于,所述进行语音唤醒,包括:若语音唤醒成功,则指示清除缓存中对应的深层特征;或者若语音唤醒失败,并且检测到音频段中包括至少一部分唤醒词,则指示在缓存中继续保留该深层特征;或者若语音唤醒失败,并且未检测到音频段中包括至少一部分唤醒词,则指示清除缓存中的深层特征。7.一种语音活动检测解码层,其特征在于,包括:获取模块,用于获取由语音活动检测编码层已编码的深层特征,所述深层特征从用于语音活动检...
【专利技术属性】
技术研发人员:高思斌,艾国,杨作兴,房汝明,向志宏,
申请(专利权)人:深圳比特微电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。