一种语音唤醒解码方法及装置制造方法及图纸

技术编号:38462463 阅读:11 留言:0更新日期:2023-08-11 14:39
本发明专利技术公开一种语音唤醒解码方法,接收音频数据并计算语音帧的后验概率值;采用N个平滑窗对后验概率值进行平滑,得到N个后验概率平滑值,N个平滑窗的不同窗长对应不同语速;采用M个子窗对N个后验概率平滑值逐个计算出M个后验得分,M个后验得分中的最大值为在对应子窗下的最大值后验得分;对每一语音帧的N个后验概率平滑值两两比较,得到N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径,将每个路径上唤醒词个数总和与唤醒词的语音帧数量进行比较,如果路径上的唤醒词个数总和大于语音帧数量,则路径对应的后验概率平滑值所对应的最大值后验得分为唤醒阈值;如果唤醒阈值大于或等于置信度,则执行语音唤醒。则执行语音唤醒。则执行语音唤醒。

【技术实现步骤摘要】
一种语音唤醒解码方法及装置


[0001]本专利技术涉及语音处理
,特别涉及一种语音唤醒解码方法及装置。

技术介绍

[0002]随着语音技术的逐渐成熟,语音控制越来越成为当前电子设备最有吸引力的人机交互方式之一,因此利用语音唤醒和命令词识别技术的产品也越来越多,例如,智能耳机、智能音响、智能手表以及一些IOT产品等。
[0003]在产品使用的过程中发现,场景是复杂多变的,基于深度学习的语音唤醒方法在正常环境下表现良好,但是在语速过快或者过慢时将导致语音唤醒的效果受影响,同时当存在大量的离线命令词时,会导致计算量和存储资源的剧增。
[0004]目前,常用的语音唤醒方法主要是通过深度学习的方法训练唤醒数据,在前向的过程中获得一个后验得分,基于后验得分采用平滑和取最大值的方式获得一个解码分数,然后与预设的一个阈值进行比较,如果超过这个阈值,就唤醒产品或者触发产品的某种功能。
[0005]传统的技术方案存在以下弊端:
[0006]1、针对说话人语速快慢的问题,采用固定的平滑窗和取最大值窗计算后验得分,唤醒率会降低。
[0007]2、通过采用平滑和最大值的方式很难处理大量离线命令词的问题,经过分析发现当存在上百个离线命令词的情况下,采用平滑与取最大值的方式存在缓存大,计算大的问题。

技术实现思路

[0008]基于上述现状,本专利技术的主要目的在于提供一种识别率高、计算量小、节省存储资源、唤醒率高的语音唤醒解码方法及装置。
[0009]为实现上述目的,本专利技术采用的技术方案如下:
[0010]一种语音唤醒解码方法,包括:
[0011]S1:接收音频数据并通过神经网络计算语音帧的后验概率值;
[0012]S2:采用N个平滑窗对所述语音帧的后验概率值进行平滑,得到所述语音帧的N个后验概率平滑值,所述N个平滑窗的窗长不同,不同窗长对应不同语速,所述N为大于等于3的正整数;
[0013]S3:采用M个子窗对所述N个后验概率平滑值逐个计算出所述语音帧的M个后验得分,所述M个子窗为将最大窗等分得到,所述M个后验得分中的最大值为所述语音帧在对应子窗下的最大值后验得分,得到M个最大值后验得分,所述M为大于等于3的正整数;
[0014]S4:对每一语音帧的所述N个后验概率平滑值两两比较,得到所述N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径,将每个路径上唤醒词个数总和与唤醒词的语音帧数量进行比较,如果所述路径上的唤醒词个数总和大于所述语音帧数量,则所述路径
对应的后验概率平滑值所对应的最大值后验得分为唤醒阈值;
[0015]S5:如果所述唤醒阈值大于或等于预设的置信度,则执行语音唤醒。
[0016]优选地,在S2前还包括:
[0017]根据预先收集的语音数据分别统计第一语速、第二语速
……
第N语速的神经网络分类单元的时长,分别计算N种语速的均值时长;
[0018]基于所述语音数据中字的分类单元,统计当前字的时长,最短的字的时长作为基本值;
[0019]计算所述语音数据中其他字的时长与所述基本值的倍数关系;
[0020]将所述倍数关系加权到所述N种语速的均值时长中,得到所述N个不同窗长的平滑窗。
[0021]优选地,所述S4中对每一语音帧的所述N个后验概率平滑值两两比较,得到所述N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径包括:
[0022]S41:所述语音帧的N个后验概率平滑值p0、p1
……
p(N

1)两两比较,得到所述N个后验概率平滑值的最大值;
[0023]S42:得到所述最大值的索引号;
[0024]S43:重复步骤S41和S42;
[0025]S44:得到所述N个当前唤醒词的路径,所述路径对应所述N个平滑窗。
[0026]本专利技术还公开一种语音唤醒解码装置,包括语音采集模块、神经网络模块,后验概率平滑模块,基于子窗的最大值计算模块,唤醒阈值计算模块和唤醒判断模块,
[0027]所述语音采集模块用于接收音频数据;
[0028]所述神经网络模块用于计算所述音频数据中语音帧的后验概率值;
[0029]所述后验概率平滑模块用于采用N个平滑窗对所述语音帧的后验概率值进行平滑,得到所述语音帧的N个后验概率平滑值,所述N个平滑窗的窗长不同,不同窗长对应不同语速,所述N为大于等于3的正整数;
[0030]所述基于子窗的最大值计算模块用于采用M个子窗对所述N个后验概率平滑值逐个采用所述子窗计算出所述语音帧的M个后验得分,所述M个子窗为将最大窗等分得到,所述M个后验得分中的最大值为所述语音帧在对应子窗下的最大值后验得分,得到M个最大值后验得分,所述M为大于等于3的正整数;
[0031]所述唤醒阈值计算模块用于对每一语音帧的所述N个后验概率平滑值两两比较,得到所述N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径,并将每个路径上唤醒词个数总和与唤醒词的语音帧数量进行比较,如果所述路径上的唤醒词个数总和大于所述语音帧数量,则所述路径对应的后验概率平滑值所对应的最大值后验得分为唤醒阈值;
[0032]所述唤醒判断模块用于当所述唤醒阈值大于或等于预设的置信度,则执行语音唤醒。
[0033]优选地,还包括平滑窗计算模块,包括均值时长计算单元、基本值计算单元和平滑窗长计算单元,
[0034]所述均值时长计算单元用于根据预先收集的语音数据分别统计第一语速、第二语速
……
第N语速的神经网络分类单元的时长,分别计算N种语速的均值时长;
[0035]所述基本值计算单元用于基于所述语音数据中字的分类单元,统计当前字的时
长,最短的字的时长作为基本值,并计算所述语音数据中其他字的时长与所述基本值的倍数关系;
[0036]所述平滑窗长计算单元用于将所述倍数关系加权到所述N种语速的均值时长中,得到所述N个不同窗长的平滑窗。
[0037]优选地,所述唤醒阈值计算模块包括最大值比较单元和唤醒词路径计算单元,
[0038]所述最大值比较单元用于依次对每个语音帧的N个后验概率平滑值p0、p1
……
p(N

1)两两比较,得到所述N个后验概率平滑值的最大值;
[0039]所述唤醒词路径计算单元用于根据所述最大值的索引号得到所述N个当前唤醒词的路径,所述路径对应所述N个平滑窗。
[0040]本专利技术还公开一种语音处理芯片,能够执行本专利技术所述的语音唤醒解码方法。
[0041]本专利技术还公开一种语音唤醒装置,包括本专利技术的语音唤醒解码装置、或者本专利技术的语音处理芯片。
[0042]本专利技术还公开一种存储介质,所述存储介质存储有程序,其中,所述程序用于被执行实现本专利技术的语音唤醒解码方法。
[0043]本专利技术的语音唤醒解码方法,通过设置N种不同的平滑窗窗长参数分别对应着不同语速本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒解码方法,其特征在于,包括:S1:接收音频数据并通过神经网络计算语音帧的后验概率值;S2:采用N个平滑窗对所述语音帧的后验概率值进行平滑,得到所述语音帧的N个后验概率平滑值,所述N个平滑窗的窗长不同,不同窗长对应不同语速,所述N为大于等于3的正整数;S3:采用M个子窗对所述N个后验概率平滑值逐个计算出所述语音帧的M个后验得分,所述M个子窗为将最大窗等分得到,所述M个后验得分中的最大值为所述语音帧在对应子窗下的最大值后验得分,得到M个最大值后验得分,所述M为大于等于3的正整数;S4:对每一语音帧的所述N个后验概率平滑值两两比较,得到所述N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径,将每个路径上唤醒词个数总和与唤醒词的语音帧数量进行比较,如果所述路径上的唤醒词个数总和大于所述语音帧数量,则所述路径对应的后验概率平滑值所对应的最大值后验得分为唤醒阈值;S5:如果所述唤醒阈值大于或等于预设的置信度,则执行语音唤醒。2.根据权利要求1所述的语音唤醒解码方法,其特征在于,在S2前还包括:根据预先收集的语音数据分别统计第一语速、第二语速
……
第N语速的神经网络分类单元的时长,分别计算N种语速的均值时长;基于所述语音数据中字的分类单元,统计当前字的时长,最短的字的时长作为基本值;计算所述语音数据中其他字的时长与所述基本值的倍数关系;将所述倍数关系加权到所述N种语速的均值时长中,得到所述N个不同窗长的平滑窗。3.根据权利要求1所述的语音唤醒解码方法,其特征在于,所述S4中对每一语音帧的所述N个后验概率平滑值两两比较,得到所述N个后验概率平滑值的最大值,以得到N个当前唤醒词的路径包括:S41:所述语音帧的N个后验概率平滑值p0、p1
……
p(N

1)两两比较,得到所述N个后验概率平滑值的最大值;S42:得到所述最大值的索引号;S43:重复步骤S41和S42;S44:得到所述N个当前唤醒词的路径,所述路径对应所述N个平滑窗。4.一种语音唤醒解码装置,其特征在于,包括语音采集模块、神经网络模块,后验概率平滑模块,基于子窗的最大值计算模块,唤醒阈值计算模块和唤醒判断模块,所述语音采集模块用于接收音频数据;所述神经网络模块用于计算所述音频数据中语音帧的后验概率值;所述后验概率平滑模块用于采用N个平滑窗对所述语音帧的后验概率值进行平滑,得到所述语音帧的N个后验概率平滑值,所述N个平滑窗的窗长不同...

【专利技术属性】
技术研发人员:高宇徐会
申请(专利权)人:珠海市杰理科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1