【技术实现步骤摘要】
激活音检测方法和装置
本专利技术涉及通信领域,尤其涉及一种激活音检测方法和装置。
技术介绍
正常的语音通话中,用户有时在说话,有时在听,这个时候就会在通话过程出现非 激活音阶段,正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长 的50%。在非激活音阶段,只有背景噪声,背景噪声通常没有任何有用信息。利用这一事实, 在语音频信号处理过程中,通过激活音检测(VAD)算法检测出于激活音和非激活音,并采用 不同的方法分别进行处理。现代的很多语音编码标准,如AMR、AMR-WB,都支持VAD功能。在 效率方面,这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是 在非稳定噪声下,这些编码器的VAD效率都较低。而对于音乐信号,这些VAD有时候会出现 错误检测,导致相应的处理算法出现明显的质量下降。另外,现有的VAD技术会存在判决不 准确的情况,例如有的VAD技术在语音段之前几帧检测不准,有的VAD在语音段之后几帧检 测不准确。
技术实现思路
本专利技术提供了一种激活音检测方法和装置,解决了现有VAD检测不准确的问题。 一种激活音检测方法,包括: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判 决结果得到最终的联合VAD判决结果。 优选的,该方法还包括: 获得当前帧的子带信号及频谱幅值; 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征 参数的值; 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 根据调性特征参数、 ...
【技术保护点】
一种激活音检测方法,其特征在于,包括:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测(VAD)判决结果得到最终的联合VAD判决结果。
【技术特征摘要】
1. 一种激活音检测方法,其特征在于,包括: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测 (VAD)判决结果得到最终的联合VAD判决结果。2. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获得当前帧的子带信号及频谱幅值; 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数 的值; 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所 述调性信号标志。3. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获取前一帧估计得到的背景噪声能量; 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全 带信噪比。4. 根据权利要求3所述的激活音检测方法,其特征在于,所述获取前一帧估计得到的 背景噪声能量包括: 获得前一帧的子带信号及频谱幅值; 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征 参数的值; 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数; 根据前一巾贞的巾贞能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参 数、调性特征参数计算得到前一帧的背景噪声标识; 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数 计算前一帧调性信号标志; 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能 量,得到前一帧全带背景噪声能量。5. 根据权利要求4所述的激活音检测方法,其特征在于, 所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值; 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比 值,或该比值进行平滑滤波得到的值; 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两 帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值 乘上一个系数; 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的,或继 续对该相关系数进行平滑滤波得到的。6. 根据权利要求2所述的激活音检测方法,其特征在于,根据调性特征参数、谱重心特 征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括: A)在当前巾贞信号为非调性信号,用一个调性巾贞标志tonality_frame来指示当前巾贞是 否为调性帧; B) 在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤D): 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一调性 特征参数判定门限值, 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二调性 特征参数门限值; C) 判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体的: 在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不满足 时判断所述当前帧为非调性帧并执行步骤D : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值, 谱重心特征参数值大于一个设定的第一谱重心判定门限值, 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时,判断当 前帧为调性帧,设置所述调性帧标志的值; D) 根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新,其中调性程 度参数tonality_degree初始值在激活音检测开始工作时进行设置; E) 根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否为调 性信号,并设置调性标志tonality_flag的值。7. 根据权利要求6所述的激活音检测方法,其特征在于,在当前的调性帧标志指示所 述当前巾贞为调性巾贞时,采用以下表达式对调性程度特征参数tonality_degree进行更新: tonality-degree = tonality-degree^ ? td-scale-A+td-scale-B, 其中,tonality+degreeq为前一帧的调性程度特征参数,其初始值取值范围为[0,1], td_scale_A为衰减系数,td_scale_B为累加系数。8. 根据权...
【专利技术属性】
技术研发人员:朱长宝,袁浩,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。