一种自适应语音端点检测方法及检测电路技术

技术编号：30266920 阅读：13 留言：0更新日期：2021-10-09 21:17

一种自适应语音端点检测方法，包括如下步骤：对输入语音信号分割成单帧时域信号；计算时域基础背景能量、时域最大背景能量、时域最终背景能量和时域语音存在概率；对单帧时域信号进行加窗处理和离散傅立叶变换，计算频域语音存在概率；根据时域语音存在概率、频域语音存在概率、信噪比计算有效判决概率；根据有效判决概率Pfinal判断是否存在有效语音。本发明专利技术使用信噪比作为选择时域处理或频域处理作为是否有语音的判决条件，解决了现有技术难以满足对复杂环境有较高适应性的需求，提高了算法对环境的自适应性和鲁棒性。对环境的自适应性和鲁棒性。对环境的自适应性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应语音端点检测方法及检测电路

[0001]本专利技术属于语音识别
，具体涉及一种自适应语音端点检测方法及检测电路。

技术介绍

[0002]语音识别是主要的人机交互技术之一，目前已经有了长足的发展，其自然方便的交互方式得到了大众的喜爱，成为了主流交互控制方式之一。在语音处理系统中，语音检测技术是极为重要的一部分，是否有效的检测到语音的起点和结束点将直接影响到整个系统的性能。如果未能有效检测到语音起点，后续各种处理无从谈起；如果未能有效检测到语音结束点，后续相关的功能模块将长时间对当前信息进行无意义处理，造成系统功耗损失。语音识别系统性能的优劣在很大程度上取决于语音端点检测技术的优劣，因此稳健、精确、实时、自适应性强及鲁棒性好的语音端点检测技术是每个语音处理系统所必需。
[0003]当前自动语音端点检测的主流方法是依靠时域中短时能量大小，过零率大小，以及频域中频域能量大小三种方法来检测，具体方法是求出短时能量、过零率或者频域能量均方差，然后与一个设定阈值进行比较。这种方法存在以下缺陷：1、时域的短时能量大小和过零率大小的方法在处理信噪比高（噪音较小）的环境下有较好的效果，但是对信噪比低（噪音较大）的环境适应性较差；2、而频域的频域能量均方差方法对处理信噪比高（噪音大）的环境有较好的效果，但是对信噪比低（安静环境）也适应较差，现有的方法在信噪比不稳定的环境中不能较好的适应，不能根据环境的变化选择最优的方法以保证检测的精确。
[0004]3、目前的语音检测方法虽然可以有效检测到语音的存在，但是存...

【技术保护点】

【技术特征摘要】
1.一种自适应语音端点检测方法，其特征在于，包括如下步骤：步骤S0.对输入语音信号进行时域信号分割，根据设定的帧长和帧移将输入语音信号分割成单帧时域信号；以下步骤S1
‑
1至S2
‑
7为逐帧进行；步骤S1
‑
1.将单帧时域信号的平方值作为时域能量信号ET(k)，计算时域基础背景能量Eback（k）；时域能量信号ET(k)具体计算公式为：；其中N为单帧信号中的点数，m为单帧时域信号的序号，n 为单帧时域信号的点数,x是单帧时域信号中的点信号；时域基础背景能量Eback（k）具体计算公式为：Eback（k）=a*Eback(k
‑
1)+(1
‑
a)*ET(k)，其中k为帧数，a为背景能量跟踪系数，a越大表示跟踪的越慢；步骤S1
‑
2.计算时域最大背景能量Eback_max（k）,Eback_max（k）=b*Eback(k)+c, 其中b为比例系数，c表示理想安静环境下的背景能量初始值；步骤S1
‑
3.计算完成时域最大背景能量后，计算时域最终背景能量Efinal（k）；如果当前的帧能量大于时域最大背景能量，或当前的帧能量大于k*Efinal(k
‑
1)时，不对时域最终背景能量进行更新；其中k为当前帧数，Efinal(k
‑
1)为上一帧的时域最大背景能量；其他情况下，则按照下面的更新方式进行更新：时域最终背景能量Efinal（k）=b1*Eback(k)+c1；b1和c1为根据当前外部状态设置的常量；步骤S1
‑
4.计算时域语音存在概率P1；估算公式为：如果时域能量信号ET(k)大于时域最终背景能量Efinal（k），则P1=0.5+(ET(k)
‑
Efinal(k))/Efinal(k)；否则P1= 0.5
‑
(Efinal(k)
‑
ET(k))/Efinal(k)；步骤S2
‑
1.对单帧时域信号进行加窗处理；在单帧频域范围内对加窗处理后的单帧时域信号进行离散傅立叶变换，得到单帧时域信号的单帧频域信息；步骤S2
‑
2.将频率划分为多个频域，利用步骤S2
‑
1计算得到的单帧频域信息计算出各个频域的频域能量EF(q)；q表示不同频域；步骤S2...

【专利技术属性】
技术研发人员：包兆华，田伟，许兵，王福君，张来，
申请(专利权)人：成都启英泰伦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人