激活音检测方法和装置制造方法及图纸

技术编号:11152760 阅读:60 留言:0更新日期:2015-03-18 09:20
本发明专利技术提供了一种激活音检测方法和装置。解决了现有VAD检测不准确的问题。该方法包括:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果。本发明专利技术提供的技术方案适用于语音业务,实现了高准确性的VAD判决。

【技术实现步骤摘要】
激活音检测方法和装置
本专利技术涉及通信领域,尤其涉及一种激活音检测方法和装置。
技术介绍
正常的语音通话中,用户有时在说话,有时在听,这个时候就会在通话过程出现非 激活音阶段,正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长 的50%。在非激活音阶段,只有背景噪声,背景噪声通常没有任何有用信息。利用这一事实, 在语音频信号处理过程中,通过激活音检测(VAD)算法检测出于激活音和非激活音,并采用 不同的方法分别进行处理。现代的很多语音编码标准,如AMR、AMR-WB,都支持VAD功能。在 效率方面,这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是 在非稳定噪声下,这些编码器的VAD效率都较低。而对于音乐信号,这些VAD有时候会出现 错误检测,导致相应的处理算法出现明显的质量下降。另外,现有的VAD技术会存在判决不 准确的情况,例如有的VAD技术在语音段之前几帧检测不准,有的VAD在语音段之后几帧检 测不准确。
技术实现思路
本专利技术提供了一种激活音检测方法和装置,解决了现有VAD检测不准确的问题。 一种激活音检测方法,包括: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判 决结果得到最终的联合VAD判决结果。 优选的,该方法还包括: 获得当前帧的子带信号及频谱幅值; 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征 参数的值; 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计 算所述调性信号标志。 优选的,该方法还包括: 获取前一帧估计得到的背景噪声能量; 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平 均全带信噪比。 优选的,所述获取前一帧估计得到的背景噪声能量包括: 获得前一帧的子带信号及频谱幅值; 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度 特征参数的值; 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数; 根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征 参数、调性特征参数计算得到前一帧的背景噪声标识; 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征 参数计算前一帧调性信号标志; 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪 声能量,得到前一帧全带背景噪声能量。 优选的,所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值; 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值 的比值,或该比值进行平滑滤波得到的值; 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相 邻两帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该 比值乘上一个系数; 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的, 或继续对该相关系数进行平滑滤波得到的。 优选的,根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特 征参数计算所述调性信号标志包括: A)在当前帧信号为非调性信号,用一个调性帧标志tonality_frame来指示当前 帧是否为调性帧; B)在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤 D): 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一 调性特征参数判定门限值, 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二 调性特征参数门限值; C)判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体 的: 在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不 满足时判断所述当前帧为非调性帧并执行步骤D : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值, 谱重心特征参数值大于一个设定的第一谱重心判定门限值, 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时, 判断当前帧为调性帧,设置所述调性帧标志的值; D)根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新,其中调 性程度参数tonality_degree初始值在激活音检测开始工作时进行设置; E)根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否 为调性信号,并设置调性标志t〇nality_flag的值。 优选的,在当前的调性帧标志指示所述当前帧为调性帧时,采用以下表达式对调 性程度特征参数tonality_degree进行更新: tonal ity_degree = tonal ity_degree_1 · td_scale_A+td_scale_B? 其中,tonality+degreh为前一帧的调性程度特征参数,其初始值取值范围为 [0,1],td_scale_A为衰减系数,td_scale_B为累加系数。 优选的,在调性程度特征参数tonality_degree大于设定的调性程度门限值时, 判断当前帧为调性信号; 在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时,判 断当前帧为非调性信号。 优选的,该方法还包括: 在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当 前的连续激活音巾贞个数continuous_speech_num2,具体的: 当联合 VAD 标志 vad_f lag 标志为 1 时 continuous_speech_num2 力口 1 ; 当 vad_flag 判为 0 时,continuous_speech_num2 置 0。 优选的,在当前帧为第一帧时,所述连续激活音帧个数为0。 优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述 已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,所述根据连续激活音帧 个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决 结果包括: 当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为 联合VAD判决结果,当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中 的一个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指或运算或者 和运算: 条件1 :平均全带信噪比大于信噪比阈值, 条件2 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比 大于信噪比阈值, 条件3 :调性信号标志设置为1。 优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述 已有VAD判决结果或联合本文档来自技高网...
激活音检测方法和装置

【技术保护点】
一种激活音检测方法,其特征在于,包括:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测(VAD)判决结果得到最终的联合VAD判决结果。

【技术特征摘要】
1. 一种激活音检测方法,其特征在于,包括: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测 (VAD)判决结果得到最终的联合VAD判决结果。2. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获得当前帧的子带信号及频谱幅值; 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数 的值; 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所 述调性信号标志。3. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获取前一帧估计得到的背景噪声能量; 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全 带信噪比。4. 根据权利要求3所述的激活音检测方法,其特征在于,所述获取前一帧估计得到的 背景噪声能量包括: 获得前一帧的子带信号及频谱幅值; 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征 参数的值; 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数; 根据前一巾贞的巾贞能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参 数、调性特征参数计算得到前一帧的背景噪声标识; 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数 计算前一帧调性信号标志; 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能 量,得到前一帧全带背景噪声能量。5. 根据权利要求4所述的激活音检测方法,其特征在于, 所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值; 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比 值,或该比值进行平滑滤波得到的值; 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两 帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值 乘上一个系数; 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的,或继 续对该相关系数进行平滑滤波得到的。6. 根据权利要求2所述的激活音检测方法,其特征在于,根据调性特征参数、谱重心特 征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括: A)在当前巾贞信号为非调性信号,用一个调性巾贞标志tonality_frame来指示当前巾贞是 否为调性帧; B) 在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤D): 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一调性 特征参数判定门限值, 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二调性 特征参数门限值; C) 判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体的: 在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不满足 时判断所述当前帧为非调性帧并执行步骤D : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值, 谱重心特征参数值大于一个设定的第一谱重心判定门限值, 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时,判断当 前帧为调性帧,设置所述调性帧标志的值; D) 根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新,其中调性程 度参数tonality_degree初始值在激活音检测开始工作时进行设置; E) 根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否为调 性信号,并设置调性标志tonality_flag的值。7. 根据权利要求6所述的激活音检测方法,其特征在于,在当前的调性帧标志指示所 述当前巾贞为调性巾贞时,采用以下表达式对调性程度特征参数tonality_degree进行更新: tonality-degree = tonality-degree^ ? td-scale-A+td-scale-B, 其中,tonality+degreeq为前一帧的调性程度特征参数,其初始值取值范围为[0,1], td_scale_A为衰减系数,td_scale_B为累加系数。8. 根据权...

【专利技术属性】
技术研发人员:朱长宝袁浩
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1