【技术实现步骤摘要】
本专利技术涉及数字通信系统中的声音活动检测技术,更具体地,涉及一种能从混有环境噪声的输入信号中准确地识别出语音和音乐信号的声音活动检测(Voice Activity Detection)方法。声音活动检测技术广泛应用于通讯系统,例如,在移动通信系统中应用声音活动检测技术,可以提高系统的流量处理能力。又如,在视频会议的多点控制单元的混音模块中应用声音活动检测技术,只让检测到有人说话的音频码流参加混音,可以减少参加混音的终端数,提高混音的质量。一般的声音活动检测方法是利用能量、过零率、基音周期或其他语音信号的短时参数来作为判断是否有人讲话的依据,当背景噪声较大时,采用这些方法会导致误判,并且这些参数都是建立在人的发声模型上,故不适用于音乐。而在多媒体通讯系统中,音乐作为一种重要媒体经常被应用,而一般的声音活动检测方法只适用于人说话的语音检测,适应不了音乐这样的非平稳过程。本专利技术的目的是提供一种适用于噪音环境中并能准确检测出语音和音乐的声音活动检测方法,使系统具有很强的抗环境噪声能力,同时又对各种有效声音信号具有很强的适应性,特别适用于多媒体通讯系统中,如视频会议系统。为了完成专利技术目的,所述的包括以下步骤1、首先将所得到的采样数据通过快速傅立叶变换FFT转变到频域上;2、在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度;3、如果当前帧是第一帧,则把当前状态置为前台状态;4、根据当前信噪比测度的各种统计量控制前台和后台的工作;5、如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较 ...
【技术保护点】
一种从噪声环境中识别出语音和音乐的声音活动检测方法,其特征在于,包括以下步骤: 1)首先将所得到的采样数据通过快速傅立叶变换转变到频域上; 2)在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度; 3)如果当前帧是第一帧,则置当前状态为前台; 4)根据当前信噪比测度的各种统计量控制前台和后台的工作; 5)如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较,进行判断和处理; 6)如果当前状态处于后台状态时,启动后台子带噪声能量更新,计算后台信噪比和后台信噪比测度,并根据信噪比测度的统计量进行判断和处理; 7)如果当前状态处于过渡状态,则进入过渡状态处理,再根据信噪比测度的统计量进一步判断,确定最终进入前台状态还是后台状态; 8)根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测的控制标志,如果外部模块同时要求计算并输出该帧各子带的总能量,则作相应的处理; 9)回到步骤1,继续处理下一帧。
【技术特征摘要】
1.一种从噪声环境中识别出语音和音乐的声音活动检测方法,其特征在于,包括以下步骤1)首先将所得到的采样数据通过快速傅立叶变换转变到频域上;2)在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度;3)如果当前帧是第一帧,则置当前状态为前台;4)根据当前信噪比测度的各种统计量控制前台和后台的工作;5)如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较,进行判断和处理;6)如果当前状态处于后台状态时,启动后台子带噪声能量更新,计算后台信噪比和后台信噪比测度,并根据信噪比测度的统计量进行判断和处理;7)如果当前状态处于过渡状态,则进入过渡状态处理,再根据信噪比测度的统计量进一步判断,确定最终进入前台状态还是后台状态;8)根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测的控制标志,如果外部模块同时要求计算并输出该帧各子带的总能量,则作相应的处理;9)回到步骤1,继续处理下一帧。2.如权利要求1所述的声音活动检测方法,其特征在于,所述步骤6)和步骤7)中,后台信噪比测度的统计量是这样计算的以20个子帧为一个复帧,对每个子帧,若该子帧的后台信噪比测度大于阀值一,则统计量减1;否则,统计量加1。3.如权利要求1所述的声音活动检测方法,其特征在于,所述步骤5)的判断和处理具体包括(1)当前台信噪比测度低于阀值一时认为是噪声,启动前台噪声能量更新;(2)若当前为前台状态,且如果连续2秒前台信噪比测度大于阀值一时认为处于过渡状态,则把当前各子带能量作为后台子带噪声能量,并置当前状态为过渡状态;(3)当连续2秒前台信噪比测度大于阀值二时认为是音乐,同时禁止前台子带噪声...
【专利技术属性】
技术研发人员:黎家力,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。