基于基频的端点检测系统及其计算方法技术方案

技术编号：10527857 阅读：162 留言：0更新日期：2014-10-09 12:43

本发明专利技术涉及一种基于基频的端点检测系统及其计算方法，通过基频提取算法得到基频出现的所有可能位置然后由代价确定基频，但由于基频可能被低频噪声所干扰，所以利用基频出现的位置应该有谐波结构的特点来辅助判断该点是否为语音。同时，根据背景能量的自适应以加快端点检测的速度及提高检测的准确度。本发明专利技术的基于基频的端点检测系统及其计算方法在信噪比不好的情况下，能够使端点检测系统具有较高的鲁棒性。在时域难于区分噪声的情况下，此方法利用噪声信号和语音信号在频谱分布有区别于时域分布的明显不同特征，可以使噪声在频域能够正确的被区分。此方法可以广泛的应用于语音信号处理领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号的端点检测技术，尤其涉及一种基于基频的语音信号的端点检测技术。
技术介绍
端点检测技术（Voice Activity Detection)的主要目的是从给定输入的语音信号中，检测出包含有语音信号的片段，并给出其开始和结束点。近年来，随着计算机的发展，语音慢慢成为人机交互的主要方式，端点检测技术在语音识别、语音分析以及语义理解中都扮演着一个重要的角色。一个较好的语音端点检测结果对提高语音识别的准确率以及处理速度都有非常重要的作用。目前，端点检测技术包括时域能量、语音相关性、频域熵、模型匹配等方法，这些方法在信噪比较好或者模型与应用环境比较匹配时，能取得不错的结果。在这些方法中，基于时域的短时能量端点检测技术因为其优点：1)计算速度快；2)信噪比高时（例如大于40 时），正确率高（可达到94%以上）；被广泛使用。但一旦信噪比低，这种方法就面临检测效果急剧下降的问题。其它的方法都存在类似的问题：一旦模型与环境失配或者信噪比不好的情况下，都面临检测会失效的问题。这也是端点检测的一个难点。
技术实现思路
(一）要解决的技术问题本专利技术要解决的技术问题就是如何提供一种端点检测计算方法，使端点检测系统具有较高的鲁棒性，即使在信噪比不好的情况下，也能保持较高的检测准确性。 (二）技术方案为了解决上述技术问题，本专利技术提供了一种基于基频的端点检测系统，其特征在于，包括分帧模块，该模块对输入信号进行分帧；语音增强模块，该模块在计算共振峰之前对语音数据进行增强处理...

【技术保护点】
基于基频的端点检测系统，其特征在于，包括分帧模块，该模块对输入信号进行分帧；语音增强模块，该模块在计算共振峰之前对语音数据进行增强处理，以避免在FFT计算之后，基音频率之外的频段的频谱泄漏对低频的影响；并且把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；共振峰计算模块，该模块根据输入的需检测的基音范围确定自相关序列中对应的数据段，之后按顺序输出该数据段中的最大值；代价确定模块，该模块根据共振峰的点位置和能量，计算该帧为语音输入帧的帧内代价和帧间连接代价；动态规划模块，该模块在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径；如果该路径的代价超过阈值，则认为当前帧为非语音输入，否则认定为语音输入；如果是语音信号，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入；信息融合模块，该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始；在信息融合判定之后，应用可以根据语音开始以及非语音开始来输出当前语音信号中语音...

【技术特征摘要】
1. 基于基频的端点检测系统，其特征在于，包括分帧模块，该模块对输入信号进行分帧；语音增强模块，该模块在计算共振峰之前对语音数据进行增强处理，以避免在FFT计算之后，基音频率之外的频段的频谱泄漏对低频的影响；并且把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；共振峰计算模块，该模块根据输入的需检测的基音范围确定自相关序列中对应的数据段，之后按顺序输出该数据段中的最大值；代价确定模块，该模块根据共振峰的点位置和能量，计算该帧为语音输入帧的帧内代价和帧间连接代价；动态规划模块，该模块在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径；如果该路径的代价超过阈值，则认为当前帧为非语音输入，否则认定为语音输入；如果是语音信号，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入；信息融合模块，该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始；在信息融合判定之后，应用可以根据语音开始以及非语音开始来输出当前语音信号中语音和非语音的开始结束点，完成语音检测。2. -种根据权...

【专利技术属性】
技术研发人员：赵茂祥，贾昌辉，李全忠，蒲瑶，何国涛，
申请(专利权)人：普强信息技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人