一种自适应语音端点检测方法及检测电路技术

技术编号:30266920 阅读:13 留言:0更新日期:2021-10-09 21:17
一种自适应语音端点检测方法,包括如下步骤:对输入语音信号分割成单帧时域信号;计算时域基础背景能量、时域最大背景能量、时域最终背景能量和时域语音存在概率;对单帧时域信号进行加窗处理和离散傅立叶变换,计算频域语音存在概率;根据时域语音存在概率、频域语音存在概率、信噪比计算有效判决概率;根据有效判决概率Pfinal判断是否存在有效语音。本发明专利技术使用信噪比作为选择时域处理或频域处理作为是否有语音的判决条件,解决了现有技术难以满足对复杂环境有较高适应性的需求,提高了算法对环境的自适应性和鲁棒性。对环境的自适应性和鲁棒性。对环境的自适应性和鲁棒性。

【技术实现步骤摘要】
一种自适应语音端点检测方法及检测电路


[0001]本专利技术属于语音识别
,具体涉及一种自适应语音端点检测方法及检测电路。

技术介绍

[0002]语音识别是主要的人机交互技术之一,目前已经有了长足的发展,其自然方便的交互方式得到了大众的喜爱,成为了主流交互控制方式之一。在语音处理系统中,语音检测技术是极为重要的一部分,是否有效的检测到语音的起点和结束点将直接影响到整个系统的性能。如果未能有效检测到语音起点,后续各种处理无从谈起;如果未能有效检测到语音结束点,后续相关的功能模块将长时间对当前信息进行无意义处理,造成系统功耗损失。语音识别系统性能的优劣在很大程度上取决于语音端点检测技术的优劣,因此稳健、精确、实时、自适应性强及鲁棒性好的语音端点检测技术是每个语音处理系统所必需。
[0003]当前自动语音端点检测的主流方法是依靠时域中短时能量大小,过零率大小,以及频域中频域能量大小三种方法来检测,具体方法是求出短时能量、过零率或者频域能量均方差,然后与一个设定阈值进行比较。这种方法存在以下缺陷:1、时域的短时能量大小和过零率大小的方法在处理信噪比高(噪音较小)的环境下有较好的效果,但是对信噪比低(噪音较大)的环境适应性较差;2、而频域的频域能量均方差方法对处理信噪比高(噪音大)的环境有较好的效果,但是对信噪比低(安静环境)也适应较差,现有的方法在信噪比不稳定的环境中不能较好的适应,不能根据环境的变化选择最优的方法以保证检测的精确。
[0004]3、目前的语音检测方法虽然可以有效检测到语音的存在,但是存在检测到语音后语音并不是所关心的内容,后续相关的功能模块将长时间对不关心的语音信息进行无意义的处理,会造成系统功耗的损失。
[0005]4、时域方法中当前自动语音端点检测的技术中判断是否为语音的阈值的设置有根据经验值设定和通过输入的语音不断的更新两种方式,其中通过经验值进行设定的方式不能够满足语音识别系统对环境需要有较高适应性的要求;通过计算的实时能量去动态的更新阈值的方式在处理突发性、时长短的噪声时容易被误判。

技术实现思路

[0006]为克服现有技术存在的技术缺陷,本专利技术公开了一种自适应语音端点检测方法及自适应语音端点检测电路。
[0007]本专利技术所述自适应语音端点检测方法,包括如下步骤:步骤S0.对输入语音信号进行时域信号分割,根据设定的帧长和帧移将输入语音信号分割成单帧时域信号;以下步骤S1

1至S2

7为逐帧进行;步骤S1

1.将单帧时域信号的平方值作为时域能量信号ET(k),
计算时域基础背景能量Eback(k);时域能量信号ET(k)具体计算公式为:;其中N为单帧信号中的点数,m为单帧时域信号的序号,n 为单帧时域信号的点数,x是单帧时域信号中的点信号;时域基础背景能量Eback(k)具体计算公式为:Eback(k)=a*Eback(k

1)+(1

a)*ET(k),其中k为帧数,a为背景能量跟踪系数,a越大表示跟踪的越慢;步骤S1

2.计算时域最大背景能量Eback_max(k),Eback_max(k)=b*Eback(k)+c, 其中b为比例系数,c表示理想安静环境下的背景能量初始值;步骤S1

3.计算完成时域最大背景能量后,计算时域最终背景能量Efinal(k);如果当前的帧能量大于时域最大背景能量,或当前的帧能量大于k*Efinal(k

1)时,不对时域最终背景能量进行更新;其中k为当前帧数,Efinal(k

1)为上一帧的时域最大背景能量;其他情况下,则按照下面的更新方式进行更新:时域最终背景能量Efinal(k)=b1*Eback(k)+c1;b1和c1为根据当前外部状态设置的常量;步骤S1

4.计算时域语音存在概率P1。
[0008]估算公式为:如果时域能量信号ET(k)大于时域最终背景能量Efinal(k),则P1=0.5+(ET(k)

Efinal(k))/Efinal(k);否则P1= 0.5

(Efinal(k)

ET(k))/Efinal(k);步骤S2

1.对单帧时域信号进行加窗处理;在单帧频域范围内对加窗处理后的单帧时域信号进行离散傅立叶变换,得到单帧时域信号的单帧频域信息;步骤S2

2.将频率划分为多个频域,利用步骤S2

1计算得到的单帧频域信息计算出各个频域的频域能量EF(q);q表示不同频域;步骤S2

3.利用频域能量EF(q)提取出频域特征信息;步骤S2

4.计算频域背景能量EFback(q),频域背景能量EFback(q)为各个频域的频域能量EF(q)平均值;计算各个频域的信噪比SNR(q);步骤S2

5.更新频域参考背景能量EFb(q);EFb(q)=g*EFback(q)+h其中g、h为根据当前外部状态设置的常量;步骤S2

6. 计算频域语音存在概率P2;如果频域能量EF(q) 大于频域参考背景能量EFb(q),则P2= 0.5+(EF(q)

EFb(q))/EFb(q)) ;否则P2= 0.5

(EFb(q)

EF(q))/EFb(q)。
[0009]步骤S2

7. 根据时域语音存在概率P1、频域语音存在概率P2、信噪比SNR(q)计算有效判决概率Pfinal,
Pfinal = P1*(SNR(q)/SNRmax)+P2*(1

SNR(q)/SNRmax)。
[0010]SNRmax为各个频域信噪比SNR(q)中的最大值;步骤S3.根据有效判决概率Pfinal判断是否存在有效语音。
[0011]优选的,所述步骤 S3具体为:步骤S3

1当有效判决概率Pfinal大于第一阈值时,开始后续的神经网络计算,否则不进行神经网络计算;步骤S3

2.将步骤S2

3得到的频域特征信息送入神经网络模型中进行神经网络计算;步骤S3

3.计算唤醒词存在概率P3;根据神经网络输出的唤醒词存在概率P3 判断是否存在有效语音。
[0012]优选的,所述步骤S2

1中对单帧时域信号使用汉明、汉宁或正弦窗进行加窗处理。
[0013]本专利技术还公开了一种自适应语音端点检测电路,由控制单元、时域能量计算单元、时域语音存在概率计算单元、参考背景计算单元、加窗处理、窗函数与旋转因子查找模块、FFT运算单元、频域能量计算、频域语音存在计算单元、频域信噪比计算单元、神经网络唤醒单元、频域特征计算单元、神经网络模型计算单元、唤醒词存在概率计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应语音端点检测方法,其特征在于,包括如下步骤:步骤S0.对输入语音信号进行时域信号分割,根据设定的帧长和帧移将输入语音信号分割成单帧时域信号;以下步骤S1

1至S2

7为逐帧进行;步骤S1

1.将单帧时域信号的平方值作为时域能量信号ET(k),计算时域基础背景能量Eback(k);时域能量信号ET(k)具体计算公式为:;其中N为单帧信号中的点数,m为单帧时域信号的序号,n 为单帧时域信号的点数,x是单帧时域信号中的点信号;时域基础背景能量Eback(k)具体计算公式为:Eback(k)=a*Eback(k

1)+(1

a)*ET(k),其中k为帧数,a为背景能量跟踪系数,a越大表示跟踪的越慢;步骤S1

2.计算时域最大背景能量Eback_max(k),Eback_max(k)=b*Eback(k)+c, 其中b为比例系数,c表示理想安静环境下的背景能量初始值;步骤S1

3.计算完成时域最大背景能量后,计算时域最终背景能量Efinal(k);如果当前的帧能量大于时域最大背景能量,或当前的帧能量大于k*Efinal(k

1)时,不对时域最终背景能量进行更新;其中k为当前帧数,Efinal(k

1)为上一帧的时域最大背景能量;其他情况下,则按照下面的更新方式进行更新:时域最终背景能量Efinal(k)=b1*Eback(k)+c1;b1和c1为根据当前外部状态设置的常量;步骤S1

4.计算时域语音存在概率P1;估算公式为:如果时域能量信号ET(k)大于时域最终背景能量Efinal(k),则P1=0.5+(ET(k)

Efinal(k))/Efinal(k);否则P1= 0.5

(Efinal(k)

ET(k))/Efinal(k);步骤S2

1.对单帧时域信号进行加窗处理;在单帧频域范围内对加窗处理后的单帧时域信号进行离散傅立叶变换,得到单帧时域信号的单帧频域信息;步骤S2

2.将频率划分为多个频域,利用步骤S2

1计算得到的单帧频域信息计算出各个频域的频域能量EF(q);q表示不同频域;步骤S2...

【专利技术属性】
技术研发人员:包兆华田伟许兵王福君张来
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1