一种用于音频会议系统的双端通话检测方法技术方案

技术编号:19866754 阅读:39 留言:0更新日期:2018-12-22 14:02
本发明专利技术公开了一种用于音频会议系统的双端通话检测方法,包括步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测;步骤(B),根据语音活性检测结果,判断该音频会议系统处于静默状态、单近状态或者远端有语音状态;步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态。本发明专利技术的用于音频会议系统的双端通话检测方法,通过语音活性检测、功率谱计算,来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态,提高双端状态判断的准确度,进而可以改善后端非线性回声抑制能力,具有良好的应用前景。

【技术实现步骤摘要】
一种用于音频会议系统的双端通话检测方法
本专利技术涉及语音信号处理
,具体涉及一种用于音频会议系统的双端通话检测方法。
技术介绍
回声是指扬声器播出的声音在被受话方听到的同时,也通过多种路径被麦克风拾取到。多路径反射的结果产生了不同延时的回声,包括直接回声和间接回声,其中直接回声是指由扬声器播出的声音未经任何反射直接进入麦克风,这种回声的延时最短,它同远端说话者的语音能量、扬声器与麦克风之间的距离、角度、扬声器的播放音量、麦克风的拾取灵敏度等因素直接相关;而间接回声是指由扬声器播出的声音经过不同的路径的一次或多次反射后进入麦克风所产生的回声的集合,房屋内的任何物体的任何变动都会改变回声的通道,因此,这种回声的特点是多路径的、时变的。如果在不做任何回声处理的情况下,回声会不断叠加形成啸叫,用户体验会变得很差。回声消除就是将输入给麦克风的信号中的回声成分消除,比较常见的算法有归一化最小均方算法、分块频域自适应滤波算法。但是,这些算法只能线性消除回声,对于非线性的残留回声只能采用非线性的方法来消除。但是,对于非线性的回声消除方法,常常依赖于双端通话状态检测的精度,所谓双端是指音频会议系统两端的说话人同时说话。在实际应用中,双端通话的持续时间虽然低于单端讲话,但是如果不检测出双端通话,会严重干扰回声消除滤波器的性能,从而严重影响非线性回声消除算法效果。当前,基于相关性系数的双端通话检测是常用的方法之一。但是,该方法通过对比每帧的相关性系数来决定是否为双端通话状态,其精度易受设定阈值限制,通常会发生误判。如何克服上述问题,是当前需要解决的问题。
技术实现思路
本专利技术的目的是解决传统的非线性回声消除方法中双端通话状态检测度不高的问题。本专利技术的用于音频会议系统的双端通话检测方法,通过语音活性检测、功率谱估计,来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态,提高双端通话状态判断的准确度,进而为改善后端非线性回声抑制能力提供依据,具有良好的应用前景。为了达到上述目的,本专利技术所采用的技术方案是:一种用于音频会议系统的双端通话检测方法,包括以下步骤,步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测;步骤(B),根据语音活性检测结果,判断该音频会议系统为静默状态、单近状态或者远端有语音状态,(B1)若近端信号d(n)和远端参考信号x(n)都无语音时,则该音频会议系统的状态为静默状态;(B2),若近端信号d(n)有语音,而远端参考信号x(n)无语音时,则该音频会议系统的状态为单近状态;(B3),若远端参考信号x(n)有语音,则该音频会议系统的状态为远端有语音状态;步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态。前述的一种用于音频会议系统的双端通话检测方法,步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态,包括以下步骤,(C1),计算近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量Sd(k)、Sx(k)和Se(k),如公式(1)所示,其中,D(k)、X(k)和E(k)分别是近端信号d(n)、远端参考信号x(n)和残差信号e(n)的傅里叶变换;α为功率谱平滑系数;(C2),计算近端信号d(n)和远端参考信号x(n),近端信号d(n)和残差信号e(n)的互功率谱能量Sxd(k)和Sde(k),如公式(2)所示,(C3),计算近端信号d(n)和远端参考信号x(n),近端信号d(n)和残差信号e(n)的第一组相关性指标Pde1和Pxd1,如公式(3)所示,其中,N为傅里叶变换长度的一半;(C4),计算近端信号d(n)和远端参考信号x(n),近端信号d(n)和残差信号e(n)的第二组相关性指标Pde2和Pxd2,如公式(4)所示,其中,Sd(k)、Sx(k)和Se(k)分别为近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量;cov函数为协方差函数;δSx、δSd、δSe分别为Sd(k)、Sx(k)和Se(k)的方差;(C5),计算第一组相关性指标Pde1和Pxd1、第二组相关性指标Pde2和Pxd2联合相关性指标Pde、Pxd,如公式(5)所示,其中,β为联合相关性指标系数;(C6),当Pde大于T1且Pxd大于T2时,则该音频会议系统为双端通话状态;否则为单远状态,其中,T1为表征近端信号d(n)和残差信号e(n)相关性阈值,T2为表征近端信号d(n)和远端参考信号x(n)相关性阈值。前述的用于音频会议系统的双端通话检测方法,(C1),所述α为功率谱平滑系数,且取值范围在0-1之间。前述的用于音频会议系统的双端通话检测方法,(C5),所述β为联合相关性指标系数,且取值范围在0-1之间。前述的用于音频会议系统的双端通话检测方法,(C6),T1、T2的取值范围均在0-1之间。前述的用于音频会议系统的双端通话检测方法,步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测,是采用高斯混合模型进行处理。本专利技术的有益效果是:本专利技术的用于音频会议系统的双端通话检测方法,通过语音活性检测、功率谱估计,来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态,提高双端通话状态判断的准确度,进而为改善后端非线性回声抑制能力提供依据,具有良好的应用前景。附图说明图1是本专利技术的用于音频会议系统的双端通话检测方法的流程图。具体实施方式下面将结合说明书附图,对本专利技术作进一步的说明。如图1所示,本专利技术的用于音频会议系统的双端通话检测方法,包括以下步骤,步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测,该计算过程是采用高斯混合模型进行处理,高斯分布又称为正态分布,若随机变量X服从一个数学期望为μ,标准差为σ2的高斯分布,则X~N(μ,σ2),其概率密度函数为:在进行语音活性检测时,定义函数x_k是六个子带的能量(子带是80~250Hz,250~500Hz,500Hz~1K,1~2K,2~3K,3~4KHz),r_k是均值u_z和方差σ2的参数结合,这两个参数决定了高斯分布的概率Z,Z=0情况是计算噪声的概率,Z=1是计算是语音的概率,噪声和语音的频谱差异以一个个波峰和波谷的形式呈现。基于这一假设,算法将频谱分成了6个子带。它们是:80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K。以1KHz为分界,向下500HZ,250Hz以及80HZ三个段,向上也有三个段,每个段是1KHz,这一频段涵盖了语音中绝大部分的信号能量,且能量越大的子带的区分度越细致。我国交流电标准是220V~50Hz,电源50Hz的干扰会混入麦克风采集到的数据中且物理震动也会带来影响,所以取了80Hz以上的信号。为减小计算量,将不同输入采样率(48KHz,32HKz,16KHz)都下采样到8KHz,这样根据莱奎斯特频率定理,有用的频谱就是4KHz以下,六个子带的上限频率为4KHz。如果采用8KHz截止频率就需要重新训练和修改高斯模型的参数,其中,VAD(语音激活检测)本文档来自技高网...

【技术保护点】
1.一种用于音频会议系统的双端通话检测方法,其特征在于:包括以下步骤,步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测;步骤(B),根据语音活性检测结果,判断该音频会议系统为静默状态、单近状态或者远端有语音状态,(B1)若近端信号d(n)和远端参考信号x(n)都无语音时,则该音频会议系统的状态为静默状态;(B2),若近端信号d(n)有语音,而远端参考信号x(n)无语音时,则该音频会议系统的状态为单近状态;(B3),若远端参考信号x(n)有语音,则该音频会议系统的状态为远端有语音状态;步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态。

【技术特征摘要】
1.一种用于音频会议系统的双端通话检测方法,其特征在于:包括以下步骤,步骤(A),对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测;步骤(B),根据语音活性检测结果,判断该音频会议系统为静默状态、单近状态或者远端有语音状态,(B1)若近端信号d(n)和远端参考信号x(n)都无语音时,则该音频会议系统的状态为静默状态;(B2),若近端信号d(n)有语音,而远端参考信号x(n)无语音时,则该音频会议系统的状态为单近状态;(B3),若远端参考信号x(n)有语音,则该音频会议系统的状态为远端有语音状态;步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态。2.根据权利要求1所述的一种用于音频会议系统的双端通话检测方法,其特征在于:步骤(C),若该音频会议系统为远端有语音状态,根据功率谱计算结果,判断是单远状态或者是双端通话状态,包括以下步骤,(C1),计算近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量Sd(k)、Sx(k)和Se(k),如公式(1)所示,其中,D(k)、X(k)和E(k)分别是近端信号d(n)、远端参考信号x(n)和残差信号e(n)的傅里叶变换;α为功率谱平滑系数;(C2),计算近端信号d(n)和远端参考信号x(n),近端信号d(n)和残差信号e(n)的互功率谱能量Sxd(k)和Sde(k),如公式(2)所示,(C3),计算近端信号d(n)和远端参考信号x(n),近端信号d(n)和残差信号e(n)的第一组相关性指标Pde1和Pxd1...

【专利技术属性】
技术研发人员:梁瑞宇王青云何超丁帆徐飞陶宇
申请(专利权)人:南京时保联信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1