一种高检出率的啸叫音频检测系统技术方案

技术编号:23316806 阅读:25 留言:0更新日期:2020-02-11 18:25
本发明专利技术公开了一种高检出率的啸叫音频检测系统,包括:预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρ

A high detection rate scream audio detection system

【技术实现步骤摘要】
一种高检出率的啸叫音频检测系统
本专利技术涉及语音信号处理领域,尤其涉及一种高检出率的啸叫音频检测系统。
技术介绍
随着互联网通信技术与经济条件的快速发展,会议电视系统凭借其自身的优势日益应用广泛,成为一种被大众认同接受的办公运作。然而,由于电视电话会议多工作在双工模式,易于系统中形成闭环回路,当此闭环回路满足啸叫发生的振幅和相位条件时,信号形成声学反馈(SF),系统会处于自激振荡状态导致啸叫现象发生。啸叫会造成恶劣的现场通话环境,甚至毁坏系统中的扩声组件,所以在会议电视系统中需要做好啸叫检测及抑制工作才能保证通话音频质量。在现有技术中关于基于神经网络的啸叫检测方法,具体步骤是:接受声音信号,将声音信号经过采样分帧后,缓存过去的9帧数据,进行特征提取,其中提取的特征包含:10帧数据的频域最大幅值,10帧数据频域最大幅值所对应的频点位置,还有9个当前帧与过去帧之间的频域相关性系数,一共是29维的特征向量。将提取的特征输入进神经网络对其进行训练,训练数据集中的啸叫音频是由从不同的位置,调节不同的音量录得的实际助听器音频,训练数据集中的正常语音采用纯净语音数据。在所述神经网络分类步骤中,为了进一步消除啸叫检测中误判所带来的语音损失,采用0.7作为输出层单元的分类阈值,也就是说,当神经网络的输出大于0.7时,才判断当前帧存在啸叫,否则判断为不存在啸叫。基于神经网络的检测方法虽然算法复杂度不高,但计算量较大,需要较多训练数据,训练过程会浪费大量时间。
技术实现思路
根据现有技术存在的问题,本专利技术公开了一种高检出率的啸叫音频检测系统,具体包括:预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比;啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决模过程最后获取啸叫帧;啸叫抑制模块,对啸叫帧进行啸叫衰减和消除处理。进一步的,采用Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比多特征融合的啸叫检测方法。所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x1,并计算当前帧信号与x1之间的最大平均Pearson系数;所述提取二阶Pearson系数时:在Pearson系数的基础上对每帧信号分别找到与其自身的x1最相关的信号x2,并计算帧信号x1与帧信号x2之间的Pearson系数。进一步的,设第i帧为当前帧,则当前帧i和其前j帧的Pearson系数的表达方式为:其中,Gamp(i,k),Gamp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱;Gi,Gj分别为当前帧和其前j帧信号的总功率,k1,k2为频率索引,m为正整数,t为缓存时间索引。进一步的,所述二阶Pearson系数采用如下方式获取:其中,Gamp(x1,k),Gamp(x1-jmax,k)分别为帧信号x1和其前jmax帧信号在频点k的幅值;Gx1,Gx1-jmax分别为x1和其前jmax帧信号的总功率,k1,k2为频率索引。所述波谷占比采用如下方式获取:通过在当前帧信号与x1之间寻找能量低于当前帧信号能量阈值的语音帧,将其数目记作nc,该段时间总帧数记为nt,则当前帧信号的波谷占比Ra为由于采用了上述技术方案,本专利技术提供的一种高检出率的啸叫音频检测系统,该系统通过计算音频信号的特征参数如Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比等参数信息,对啸叫进行判决,从而对音频信号进行啸叫衰减和消除处理,该系统利用Pearson系数在持续时间内寻找与当前帧信号最相近的一帧信号,并将二者在该段时间内的平均Pearson系数值作为阈值来进行啸叫判决,在此基础上,继续增加二阶Pearson系数从而缩小了检出范围,同时降低了对语音的误检率,同时该系统公开的波谷占比计算方式为具有周期性的短时啸叫的检测缩小了范围,降低了误检率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术系统的结构示意图;图2为本专利技术中Pearson相关系数计算原理图;图3为本专利技术中二阶Pearson系数计算过程示意图;图4为本专利技术中啸叫检测判决模块工作过程的流程图;图5(a)为本专利技术中啸叫方法总体抑制结果样例图;图5(b)为本专利技术中啸叫方法总体抑制结果样例图。具体实施方式为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述:啸叫检测(HD)是一个典型的二元信号检测问题,本专利技术采取的主要技术路线为在传统二元信号检测技术基础上研发新的检测、判决、识别的新方法,以期在性能上和资源消耗上能达到预期效果。本专利技术的一种高检出率的啸叫音频检测系统如图1所示,该系统首先对语音信号进行预处理,在此基础上再提取多个合适的特征参数,再根据不同的啸叫信号的时域与频域特性选择合适的特征参数进行联合条件判决,以达到识别啸叫与正常语音信号的目的,并对啸叫信号进行抑制。该系统具体包括预处理模块、特征参数提取模块、啸叫检测判决模块和啸叫抑制模块。进一步的,预处理模块对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理。作为优选的方式,预处理模块在进行特征参数提取之前需要对输入信号进行必要的预处理,主要包括:(1)信号分帧与缓存供后续参数提取使用;(2)加窗截取数据做FFT并进行缓存;(3)语音端点检测处理。对麦克风拾取到的语音信号x(n)经过16kHz的采样以后,用一个定长的时间窗,以固定的帧移长度对原始信号进行分帧。为了减少频谱泄露和谱间干扰的影响,选择海明(Hamming)窗w(n)对信号x(n)进行加窗处理。经过分帧加窗之后的信号每帧的帧长为N,本专利N为256个点。分帧加窗之后的信号为其中n=0,1,…,N-1对分帧加窗后的信号进行快速傅里叶变换(FFT),得到第i帧信号的第k个频点的频谱为的幅度谱为XR(i,k)为第i帧信号第k个频点的实部,XI(i,k)本文档来自技高网...

【技术保护点】
1.一种高检出率的啸叫音频检测系统,其特征在于包括:/n预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;/n特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比;/n啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρ

【技术特征摘要】
1.一种高检出率的啸叫音频检测系统,其特征在于包括:
预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;
特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比;
啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决模过程最后获取啸叫帧;
啸叫抑制模块,对啸叫帧进行啸叫衰减和消除处理。


2.根据权利要求1所述的系统,其特征还在于:所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x1,并计算当前帧信号与x1之间的最大平均Pearson系数;
所述提取二阶Pearson系数时:在Pearson系数的基础上对每帧信号分别找到与其自身的x1...

【专利技术属性】
技术研发人员:张芷毓林坤鹏陈喆殷福亮
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1