一种从噪声环境中识别出语音和音乐的声音活动检测方法技术

技术编号:3047224 阅读:282 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种从噪声环境中识别出语音和音乐的声音活动检测方法。本方法以信噪比为声音活动检测的判断标准。首先把采样数据通过FFT转变到频域上,在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及信噪比测度。子带噪声能量更新,子带信噪比测度的计算分前、后台进行,前、后台交错控制,由信噪比测度的作为判断噪音、语音及音乐的标准。本方法在噪音环境中能准确检测出语音和音乐,使系统具有很强的抗环境噪声能力,同时又对各种有效声音信号具有很强的适应性。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数字通信系统中的声音活动检测技术,更具体地,涉及一种能从混有环境噪声的输入信号中准确地识别出语音和音乐信号的声音活动检测(Voice Activity Detection)方法。声音活动检测技术广泛应用于通讯系统,例如,在移动通信系统中应用声音活动检测技术,可以提高系统的流量处理能力。又如,在视频会议的多点控制单元的混音模块中应用声音活动检测技术,只让检测到有人说话的音频码流参加混音,可以减少参加混音的终端数,提高混音的质量。一般的声音活动检测方法是利用能量、过零率、基音周期或其他语音信号的短时参数来作为判断是否有人讲话的依据,当背景噪声较大时,采用这些方法会导致误判,并且这些参数都是建立在人的发声模型上,故不适用于音乐。而在多媒体通讯系统中,音乐作为一种重要媒体经常被应用,而一般的声音活动检测方法只适用于人说话的语音检测,适应不了音乐这样的非平稳过程。本专利技术的目的是提供一种适用于噪音环境中并能准确检测出语音和音乐的声音活动检测方法,使系统具有很强的抗环境噪声能力,同时又对各种有效声音信号具有很强的适应性,特别适用于多媒体通讯系统中,如视频会议系统。为了完成专利技术目的,所述的包括以下步骤1、首先将所得到的采样数据通过快速傅立叶变换FFT转变到频域上;2、在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度;3、如果当前帧是第一帧,则把当前状态置为前台状态;4、根据当前信噪比测度的各种统计量控制前台和后台的工作;5、如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较,进行判断和处理;6、如果当前状态处于后台状态时,启动后台子带噪声能量更新,计算后台信噪比和后台信噪比测度,并根据信噪比测度的统计量进行判断和处理;7、如果当前状态处于过渡状态,则进入过渡状态处理,再根据信噪比测度的统计量进一步判断,确定最终进入前台状态还是后台状态;8、根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测(VAD)的控制标志;9、根据外部模块的要求计算并输出该帧各子带的总能量(该步可选);10、回到步骤1,继续处理下一帧。在上述的声音活动检测方法,所述的步骤8中,若前台信噪比测度大于阀值一,则置声音标志,否则置静音标志。由上述方案可见,因本专利技术实现的声音活动检测方法使用了信噪比这一具有普遍性的物理量。故与其他方法相比具有适应性广的明显优点,既可检测出语音,又可检测出音乐,同时又有很强的抗噪声能力,适用于各种噪声环境,并且能适应各种输入增益及不同信噪比的硬件。特别适用于多媒体通讯系统。下面结合附图和实施例对本专利技术作进一步说明。附图说明图1是本专利技术所述方法的流程图。图2是应用该方法于一个系统的流程图。以下结合图1对本方法作具体说明本专利技术把声音活动检测的判断标准建立在信噪比这一物理量上。由于人耳可感知的频谱主要集中在4KHz以下,同时为了降低运算量,本专利技术以8K采样为例,但对于其他采样率,只要改变某些参数,本专利技术所采用的方法同样适用。第一步,首先将所得到的采样数据通过快速傅立叶变换(FFT)转变到频域上输入语音用s(n)表示。算法的帧长为10ms,即80点数据为一帧(L=80),并且采用帧间重叠的方法,重叠的数据点数D为24。这样,输入数据帧缓冲区d(m,n)的数据点数为L+D=104点,其中前D点数据为前一帧的最后D点数据,即d(m,n)=d(m-1,L+n),0≤n<D这里m表示当前帧。对输入语音s(n)进行预加重处理,则有d(m,D+n)=s(n)+ξps(n-1),0≤n<L其中ξp=-0.8为预加重系数。对预加重后的输入数据d(m,n)用平滑的梯形窗进行加窗处理,然后补零,形成M=128点的离散傅立叶变换输入数据g(n),即 对g(n)进行离散傅立叶变换,得到输入信号的频谱G(k)G(k)=2MΣn=0M-1g(n)e-j2πnk/M;0≤k<M]]>在实际计算中,考虑到g(n)是实数,因此可用M/2点的复数快速傅立叶变换快速计算M点的实数快速傅立叶变换。对16K采样,160点数据为一帧(L=160),并且采用帧间重叠的方法,重叠的数据点数D为48。这样,输入数据帧缓冲区d(m,n)的数据点数为L+D=208点,进行256点快速傅立叶变换。第二步,非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算得前台信噪比测度(1)、当前帧每个子带的能量Ech(m)按下式进行计算Ech(m,i)=max{Emin,αch(m)Ech(m-1,i)+(1-αch(m))1fH(i)-fL(i)+1Σk=fL(i)fH(i)|G(k)|2}]]>0≤i<NC其中NC=16为子带数,Emin=0.0625为子带最小能量,αch(m)为子带能量平滑因子。平滑因子αch(m)定义为 fL(i)和fH(i)为第i个子带起始和结束的位置,其中fL和fH定义如下fL={2,4,6,8,10,12,14,17,20,23,27,31,36,42,49,56},fH={3,5,7,9,11,13,16,19,22,26,30,35,41,48,55,63}对于16K采样fL={2,4,6,8,10,12,14,17,20,23,27,31,36,42,49,57,66,77,90,106},fH={3,5,7,9,11,13,16,19,22,26,39,35,41,48,56,65,76,89,105,127}(2)、子带信噪比估计按下式计算子带的信噪比σq(i)σq(i)=max{0,min{89,round{101og10(Ech(m,i)En(m,i))/0.375}}};0≤i<Nc]]>其中En(m,i)是当前帧第i个子带噪声能量的估计值,0.375是信噪比的量化步长。σq(i)量化为整数,并限定在0和89之间。(3)、计算信噪比测度(SNR Metric)信噪比测度v(m)是根据子带信噪比来描述当前帧与语音的相似程度,它是表征当前帧是语音还是噪声的衡量标准v(m)=Σi=0Nc-1V(σq(i))]]>其中V(k)为信噪比测度表{V}中第k个值。{V}共有90个元素,定义为V={2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,4,4,4,5,5,5,6,6,7,7,7,8,8,9,9,10,10,11,12,12,13,13,14,15,15,16,17,17,18,19,20,20,21,22,23,24,24,25,26,27,28,28,29,30,31,32,33,34,35,36,37,37,38,39,40,41,42,43,44,45,46,47,48,49,50,50,50,50,50,50,50,50,50,50}。第三步,如果该帧是第一帧,则把当前状态置为前台状态。第四步,根据信噪比测度的各种统计量控制前台和本文档来自技高网...

【技术保护点】
一种从噪声环境中识别出语音和音乐的声音活动检测方法,其特征在于,包括以下步骤: 1)首先将所得到的采样数据通过快速傅立叶变换转变到频域上; 2)在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度; 3)如果当前帧是第一帧,则置当前状态为前台; 4)根据当前信噪比测度的各种统计量控制前台和后台的工作; 5)如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较,进行判断和处理; 6)如果当前状态处于后台状态时,启动后台子带噪声能量更新,计算后台信噪比和后台信噪比测度,并根据信噪比测度的统计量进行判断和处理; 7)如果当前状态处于过渡状态,则进入过渡状态处理,再根据信噪比测度的统计量进一步判断,确定最终进入前台状态还是后台状态; 8)根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测的控制标志,如果外部模块同时要求计算并输出该帧各子带的总能量,则作相应的处理; 9)回到步骤1,继续处理下一帧。

【技术特征摘要】
1.一种从噪声环境中识别出语音和音乐的声音活动检测方法,其特征在于,包括以下步骤1)首先将所得到的采样数据通过快速傅立叶变换转变到频域上;2)在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及前台信噪比,并由前台信噪比算出前台信噪比测度;3)如果当前帧是第一帧,则置当前状态为前台;4)根据当前信噪比测度的各种统计量控制前台和后台的工作;5)如果当前状态处于前台状态时,将当前的前台信噪比测度与所选阀值相比较,进行判断和处理;6)如果当前状态处于后台状态时,启动后台子带噪声能量更新,计算后台信噪比和后台信噪比测度,并根据信噪比测度的统计量进行判断和处理;7)如果当前状态处于过渡状态,则进入过渡状态处理,再根据信噪比测度的统计量进一步判断,确定最终进入前台状态还是后台状态;8)根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测的控制标志,如果外部模块同时要求计算并输出该帧各子带的总能量,则作相应的处理;9)回到步骤1,继续处理下一帧。2.如权利要求1所述的声音活动检测方法,其特征在于,所述步骤6)和步骤7)中,后台信噪比测度的统计量是这样计算的以20个子帧为一个复帧,对每个子帧,若该子帧的后台信噪比测度大于阀值一,则统计量减1;否则,统计量加1。3.如权利要求1所述的声音活动检测方法,其特征在于,所述步骤5)的判断和处理具体包括(1)当前台信噪比测度低于阀值一时认为是噪声,启动前台噪声能量更新;(2)若当前为前台状态,且如果连续2秒前台信噪比测度大于阀值一时认为处于过渡状态,则把当前各子带能量作为后台子带噪声能量,并置当前状态为过渡状态;(3)当连续2秒前台信噪比测度大于阀值二时认为是音乐,同时禁止前台子带噪声...

【专利技术属性】
技术研发人员:黎家力
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1