基于基频的端点检测系统及其计算方法技术方案

技术编号:10527857 阅读:162 留言:0更新日期:2014-10-09 12:43
本发明专利技术涉及一种基于基频的端点检测系统及其计算方法,通过基频提取算法得到基频出现的所有可能位置然后由代价确定基频,但由于基频可能被低频噪声所干扰,所以利用基频出现的位置应该有谐波结构的特点来辅助判断该点是否为语音。同时,根据背景能量的自适应以加快端点检测的速度及提高检测的准确度。本发明专利技术的基于基频的端点检测系统及其计算方法在信噪比不好的情况下,能够使端点检测系统具有较高的鲁棒性。在时域难于区分噪声的情况下,此方法利用噪声信号和语音信号在频谱分布有区别于时域分布的明显不同特征,可以使噪声在频域能够正确的被区分。此方法可以广泛的应用于语音信号处理领域。

【技术实现步骤摘要】

本专利技术涉及语音信号的端点检测技术,尤其涉及一种基于基频的语音信号的端点 检测技术。
技术介绍
端点检测技术(Voice Activity Detection)的主要目的是从给定输入的语音信 号中,检测出包含有语音信号的片段,并给出其开始和结束点。近年来,随着计算机的发展, 语音慢慢成为人机交互的主要方式,端点检测技术在语音识别、语音分析以及语义理解中 都扮演着一个重要的角色。一个较好的语音端点检测结果对提高语音识别的准确率以及处 理速度都有非常重要的作用。 目前,端点检测技术包括时域能量、语音相关性、频域熵、模型匹配等方法,这些方 法在信噪比较好或者模型与应用环境比较匹配时,能取得不错的结果。在这些方法中,基于 时域的短时能量端点检测技术因为其优点:1)计算速度快;2)信噪比高时(例如大于40 时),正确率高(可达到94%以上);被广泛使用。但一旦信噪比低,这种方法就面临检测 效果急剧下降的问题。其它的方法都存在类似的问题:一旦模型与环境失配或者信噪比不 好的情况下,都面临检测会失效的问题。这也是端点检测的一个难点。
技术实现思路
(一)要解决的技术问题 本专利技术要解决的技术问题就是如何提供一种端点检测计算方法,使端点检测系统 具有较高的鲁棒性,即使在信噪比不好的情况下,也能保持较高的检测准确性。 (二)技术方案 为了解决上述技术问题,本专利技术提供了一种基于基频的端点检测系统,其特征在 于,包括分帧模块,该模块对输入信号进行分帧; 语音增强模块,该模块在计算共振峰之前对语音数据进行增强处理,以避免在快 速傅氏变换计算之后,基音频率之外的频段的频谱泄漏对低频的影响;并且把时域能量信 息和频域信息进行结合,利用时域低能量作为背景能量阈值,对静音的部分进行过滤; 共振峰计算模块,该模块根据输入的需检测的基音范围确定自相关序列中对应的 数据段,之后按顺序输出该数据段中的最大值; 代价确定模块,该模块根据共振峰的点位置和能量,计算该帧为语音输入帧的帧 内代价和帧间连接代价; 动态规划模块,该模块在给定的帧内和帧间计算方法下,确定从规划起始帧至当 前帧的一条代价最小路径;如果该路径的代价超过阈值,则认为当前帧为非语音输入,否则 认定为语音输入;如果是语音信号,再转由时域能量判定,以保证能量不能过低,以此最后 确定当前帧是否为语音信号输入; 信息融合模块,该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关 性、语音段定义参数、轻音补偿作为输入,对各信息进行非线性融合,以判定语音或者非语 音信号开始;在信息融合判定之后,应用可以根据语音开始以及非语音开始来输出当前语 音信号中语音和非语音的开始结束点,完成语音检测。 本专利技术还提供一种基于基频的端点检测系统的端点检测计算方法,其特征在于, 包括以下步骤: 步骤一:对输入信号进行分帧; 步骤二:对语音数据进行增强处理;把时域能量信息和频域信息进行结合,利用 时域低能量作为背景能量阈值,对静音的部分进行过滤;这里的背景能量阈值需要根据背 景能量的变化进行相应的能量自适应; 步骤三:根据输入的需检测的基音范围确定自相关序列中对应的数据段,之后按 顺序输出该数据段中的最大值,也即计算出共振峰; 步骤四:根据共振峰的点位置和能量,计算该帧为语音输入帧的代价;其中所述 帧的代价包括帧内代价和帧间连接代价; 步骤五:在给定的帧内和帧间计算方法下,确定从规划起始帧至当前帧的一条代 价最小路径,如果该路径的代价超过背景能量阈值,则认为当前帧为非语音输入,否则认定 为语音输入;如果是语音信号,再转由时域能量判定,以保证能量不能过低,以此最后确定 当前帧是否为语音信号输入; 步骤六:信息融合模块利用动态规划的结果、能量适应结果、各帧音基音位置相关 性、语音段定义参数、轻音补偿作为输入,对各信息进行非线性融合,以判定语音或者非语 音信号开始;在信息融合判定之后,应用可以根据语音开始以及非语音开始来输出当前语 音信号中语音和非语音的开始结束点,完成语音检测。 (三)有益效果 本专利技术的,通过基频提取算法得到基频以 及基频出现的所有可能位置,但由于基频可能被低频噪声所干扰,所以采用基频出现的位 置应该有的谐波结构的特点来辅助判断该点是否为语音。同时,根据背景能量的自适应以 加快端点检测的速度。本专利技术的在信噪比不好的情 况下,能够使端点检测系统具有较高的鲁棒性。在时域难于区分噪声的情况下,此方法利用 噪声信号和语音信号在频谱分布有区别于时域分布的明显不同特征,可以使噪声在频域能 够正确的被区分。 【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1 :本专利技术提供的基于基频的端点检测系统的端点检测计算方法流程方框示意 图; 图2 :本专利技术的基于基频的端点检测系统的分帧示例的示意图; 图3 :本专利技术的基于基频的端点检测系统的共振峰计算流程示意图; 图4 :本专利技术的基于基频的端点检测系统的动态规划流程示意图; 图5 :本专利技术的基于基频的端点检测系统的信息融合判定语音端点检测流程示意 图; 【具体实施方式】 下面结合附图和实施例对本专利技术的实施方式作进一步详细描述。以下实施例用于 说明本专利技术,但不能用来限制本专利技术的范围。 本实施例提供一种基于基频的端点检测系统,包括分帧模块,该模块对输入信号 进行分巾贞; 语音增强模块在计算共振峰之前对语音数据进行增强处理,以避免在FFT计算之 后,基音频率之外的频段的频谱泄漏对低频的影响;并且把时域能量信息和频域信息进行 结合,利用时域低能量作为背景能量阈值,对静音的部分进行过滤; 共振峰计算模块根据输入的需检测的基音范围确定自相关序列中对应的数据段, 之后按顺序输出该数据段中的最大值; 代价确定模块根据共振峰的点位置和能量,计算该帧为语音输入帧的帧内代价和 帧间连接代价; 动态规划模块在给定的帧内和帧间计算方法下,确定从规划起始帧至当前帧的一 条代价最小路径;如果该路径的代价超过阈值,则认为当前帧为非语音输入,否则认定为语 音输入;如果是语音信号,再转由时域能量判定,以保证能量不能过低,以此最后确定当前 中贞是否为语音信号输入; 信息融合模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音 段定义参数、轻音补偿作为输入,对各信息进行非线性融合,以判定语音或者非语音信号开 始;在信息融合判定之后,应用可以根据语音开始以及非语音开始来输出当前语音信号中 语音和非语音的开始结束点,完成语音检测。 本实施例还提供一种基于基频的端点检测系统的端点检测计算方法: 步骤一:分帧模块对输入信号进行分帧操作,由于后续需要对数据计算共振峰,本 算法所采用分帧结构如图2所示,一个帧可以由一定长度(例如10ms)的语音数据组成,若 干帧(例如4个帧)可组成一个计算窗口,本文档来自技高网...

【技术保护点】
基于基频的端点检测系统,其特征在于,包括分帧模块,该模块对输入信号进行分帧;语音增强模块,该模块在计算共振峰之前对语音数据进行增强处理,以避免在FFT计算之后,基音频率之外的频段的频谱泄漏对低频的影响;并且把时域能量信息和频域信息进行结合,利用时域低能量作为背景能量阈值,对静音的部分进行过滤;共振峰计算模块,该模块根据输入的需检测的基音范围确定自相关序列中对应的数据段,之后按顺序输出该数据段中的最大值;代价确定模块,该模块根据共振峰的点位置和能量,计算该帧为语音输入帧的帧内代价和帧间连接代价;动态规划模块,该模块在给定的帧内和帧间计算方法下,确定从规划起始帧至当前帧的一条代价最小路径;如果该路径的代价超过阈值,则认为当前帧为非语音输入,否则认定为语音输入;如果是语音信号,再转由时域能量判定,以保证能量不能过低,以此最后确定当前帧是否为语音信号输入;信息融合模块,该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入,对各信息进行非线性融合,以判定语音或者非语音信号开始;在信息融合判定之后,应用可以根据语音开始以及非语音开始来输出当前语音信号中语音和非语音的开始结束点,完成语音检测。...

【技术特征摘要】
1. 基于基频的端点检测系统,其特征在于,包括分帧模块,该模块对输入信号进行分 帧; 语音增强模块,该模块在计算共振峰之前对语音数据进行增强处理,以避免在FFT计 算之后,基音频率之外的频段的频谱泄漏对低频的影响;并且把时域能量信息和频域信息 进行结合,利用时域低能量作为背景能量阈值,对静音的部分进行过滤; 共振峰计算模块,该模块根据输入的需检测的基音范围确定自相关序列中对应的数据 段,之后按顺序输出该数据段中的最大值; 代价确定模块,该模块根据共振峰的点位置和能量,计算该帧为语音输入帧的帧内代 价和帧间连接代价; 动态规划模块,该模块在给定的帧内和帧间计算方法下,确定从规划起始帧至当前帧 的一条代价最小路径;如果该路径的代价超过阈值,则认为当前帧为非语音输入,否则认定 为语音输入;如果是语音信号,再转由时域能量判定,以保证能量不能过低,以此最后确定 当前帧是否为语音信号输入; 信息融合模块,该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、 语音段定义参数、轻音补偿作为输入,对各信息进行非线性融合,以判定语音或者非语音信 号开始;在信息融合判定之后,应用可以根据语音开始以及非语音开始来输出当前语音信 号中语音和非语音的开始结束点,完成语音检测。2. -种根据权...

【专利技术属性】
技术研发人员:赵茂祥贾昌辉李全忠蒲瑶何国涛
申请(专利权)人:普强信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1