一种基于深度学习的防啸叫扩声方法及系统技术方案

技术编号:22105423 阅读:31 留言:0更新日期:2019-09-14 04:34
本发明专利技术公开了一种基于深度学习的防啸叫扩声方法及系统,避免了传统方法需要通过人工选择特征向量的缺陷。一种基于深度学习的防啸叫扩声方法,包括如下步骤:A、对采集的语音信号进行预加重;B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;E、精确定位啸叫频率;F、根据精确定位的啸叫频率,进行抑制。

A Method and System of Anti-whistling and Sound Enhancement Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的防啸叫扩声方法及系统
本专利技术属于扩声应用领域,涉及一种基于深度学习的防啸叫扩声方法及系统,特别涉及一种基于深度学习的防啸叫教育扩声方法及系统。
技术介绍
在如学校教室等环境中,由于房间较大,通常需要扩声系统,才能让最后一排学生也能听清楚讲台老师的讲课。尽管扩声系统可以有助于教师讲课,但处理不当,会引入新的问题。如图1所示,在教育扩声系统中,音频信号经过扬声器系统输出,由传声器拾音后由功率放大器放大后再由扬声器系统输出,形成扬声器系统-传声器-放大器-扬声器系统之间的正反馈,在满足振幅平衡和相位平衡的条件下,此循环会导致整个闭环系统自激振荡产生啸叫现象。啸叫声不仅会造成输出信号失真,恶化主观听音感受,阻碍正常的语音交流,同时有可能会因为输出功率过高而烧坏功率放大器,造成器件损坏。教育扩声系统中常见的啸叫抑制方法主要有:(1)移频移相;(2)陷波法;(3)自适应滤波器。其中,移频移相对系统音质损伤较大,且提高增益有限;自适应滤波器理论上可以提高无穷大增益,且语音损伤较小,但其对系统非线性敏感度较高,且计算复杂度高,降低成本比较困难。而陷波法在语音损伤和计算复杂度之间取得了一个较好的平衡,因此被广泛应用。陷波法包括啸叫检测和抑制两部分,其中检测部分通过各种特征判断是否存在啸叫频率点,抑制部分根据检测部分的结果,对相应的啸叫频率成份进行抑制。然而,传统的陷波法中,需要通过人工选择特征向量。
技术实现思路
本专利技术的目的是提供一种基于深度学习的防啸叫扩声方法及系统,利用深度学习模型,可以直接从原始数据中获取啸叫频率点,避免了传统方法需要通过人工选择特征向量的缺陷,可以进一步提高啸叫检测准确度。为达到上述目的,本专利技术采用的一种技术方案为:一种基于深度学习的防啸叫扩声方法,包括如下步骤:A、对采集的语音信号进行预加重;B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;E、精确定位啸叫频率;F、根据精确定位的啸叫频率,进行抑制。优选地,所述步骤C中的深度学习模型由如下步骤训练或所述防啸叫扩声方法还包括如下步骤:a、提供预采集的声音作为训练音源信号,并进行预加重;b、对步骤a预加重后的训练音源信号进行分帧、FFT变换并取频谱幅度值的对数;c、将连续多帧信号组成一组输入向量X,判断这组信号是否存在啸叫信号并记录啸叫信号位置,若不存在啸叫信号,则标记为其中I为观察频率个数,如果存在啸叫信号,则标记为其中1对应啸叫频率处的位置;d、当输入向量为非啸叫信号时,则标记输出向量当输入向量为啸叫信号时,则标记输出向量e、将步骤c的输入向量X和步骤d的输出向量Y作为训练集,使用后向传播算法对深度学习模型进行训练。更优选地,所述步骤A或步骤a中,预加重滤波器为H(z)=1-αz-1,其中,z为延时单元,α为调节参数。更优选地,所述步骤B或步骤b中,对分帧后的每帧信号做FFT变换Y(ωi,n),ωi为数字频率,i=0,1,…(I-1),n为帧数,对FFT频谱取绝对值Y1(ωi,n)=|Y(ωi,n)|,并按10为底数并取其对数Y2(ωi,n)=20*log10Y1(ωi,n);所述步骤c中,将连续N帧信号组成一组输入向量X;所述步骤d中,采用DNN深度学习模型,包含输入层向量大小为(I×N)×1,三层隐藏层大小都为M×1,输出大小为(I+1)×1,输入层为N帧频谱信号Y2(ωi,n)按顺序拼成的(IxN)x1向量X,隐藏层激活函数σ(x)为ReLU,其表达式为σ(x)=max(x,0),其中max(·,·)为取两个数的最大数,输出层激活函数采用softmax,其表达式为:其中si为输出层的第i个输出,xi为输出层的第i个输入,xj为输出层的第j个输入;误差函数Err采用交叉熵,其表达式为:其中yi是输出向量Y中的第i个元素,其中1n为以自然数为底数的对数。优选地,所述步骤A中,采用麦克风阵列采集声音,并划分频带,将不同的麦克风分配给不同的频带,对同一频带内的各麦克风进行滤波,并分别赋予不同的增益,对同一频带内的各麦克风的输出进行叠加形成当前频带输出,并最终对所有频带输出叠加形成总输出;其中,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列。采用麦克风阵列,可以进一步降低反馈路径增益,降低啸叫发生的概率;利用弧形麦克风阵列,具有天然聚焦性,进一步增强指向性。更优选地,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。麦克风阵列采用非均匀分布,可以在同等引径下,减少麦克风个数,降低硬件成本;同时利用子带分析和非均匀分布,可以达到宽带指向性一致的效果,并利用模拟电路实现,进一步降低硬件成本。进一步地,弧长d2为弧长d1的两倍。本专利技术采用的另一种技术方案为:一种基于深度学习的防啸叫扩声系统,包括:麦克风阵列,其用于采集待扩声区域的声音;麦克风驱动电路,其用于驱动所述麦克风系统工作,所述麦克风驱动电路和所述麦克风阵列电性连接;宽带波束形成电路,其用于进行波束形成,所述宽带波束形成电路和所述麦克风驱动电路电性连接;AD转换装置,其用于将模拟信号转换为数字信号,所述AD转换装置和所述宽带波束形成电路电性连接;DSP处理器,其用于执行如上所述的防啸叫扩声方法,所述DSP处理器和所述AD转换装置电性连接;DA转换装置,其用于将数字信号转换为模拟信号,所述DA转换装置和所述DSP处理器电性连接;及扬声器驱动电路,其用于驱动扬声器将电信号转化为声信号,所述扬声器驱动电路和所述DA转换装置及所述扬声器电性连接。优选地,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。采用麦克风阵列,可以进一步降低反馈路径增益,降低啸叫发生的概率;利用弧形麦克风阵列,具有天然聚焦性,进一步增强指向性;麦克风阵列采用非均匀分布,可以在同等引径下,减少麦克风个数,降低硬件成本;同时利用子带分析和非均匀分布,可以达到宽带指向性一致的效果,并利用模拟电路实现,进一步降低硬件成本。优选地,所述多个麦克风划分为多组,每组麦克风对应一个频带,所述宽带波束形成电路包括多组麦克风通道、多个第一加法电路及一个第二加法电路,每个麦克风通道分别包括相互串接的带通滤波电路和增益电路,每个带通滤波电路分别和一个麦克风连接,每组所述麦克风通道对应一个频带并由对应该频带的多个麦克风通道组成,各所述第一加法电路分别与对应的一组麦克风通道的增益电路连接以对同一频带内的各麦克风的输出进行叠加形成当前频带输出,所述第二加法电路与所述多个第一加法电路连接以对所有频带输出叠加形成总输出。本专利技术采用以上方案,相比现有技术具有如下优点:利本文档来自技高网...

【技术保护点】
1.一种基于深度学习的防啸叫扩声方法,其特征在于,包括如下步骤:A、对采集的语音信号进行预加重;B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;E、精确定位啸叫频率;F、根据精确定位的啸叫频率,进行抑制。

【技术特征摘要】
1.一种基于深度学习的防啸叫扩声方法,其特征在于,包括如下步骤:A、对采集的语音信号进行预加重;B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;E、精确定位啸叫频率;F、根据精确定位的啸叫频率,进行抑制。2.根据权利要求1所述的防啸叫扩声方法,其特征在于,所述步骤C中的深度学习模型由如下步骤训练或所述防啸叫扩声方法还包括如下步骤:a、提供预采集的声音作为训练音源信号,并进行预加重;b、对步骤a预加重后的训练音源信号进行分帧、FFT变换并取频谱幅度值的对数;c、将连续多帧信号组成一组输入向量X,判断这组信号是否存在啸叫信号并记录啸叫信号位置,若不存在啸叫信号,则标记为其中I为观察频率个数,如果存在啸叫信号,则标记为其中1对应啸叫频率处的位置;d、当输入向量为非啸叫信号时,则标记输出向量当输入向量为啸叫信号时,则标记输出向量e、将步骤c的输入向量X和步骤d的输出向量Y作为训练集,使用后向传播算法对深度学习模型进行训练。3.根据权利要求2所述的防啸叫扩声方法,其特征在于,所述步骤A或步骤a中,预加重滤波器为H(z)=1-αz-1,其中,z为延时单元,α为调节参数。4.根据权利要求2所述的防啸叫扩声方法,其特征在于,所述步骤B或步骤b中,对分帧后的每帧信号做FFT变换Y(ωi,n),ωi为数字频率,i=0,1,…(I-1),n为帧数,对FFT频谱取绝对值Y1(ωi,n)=|Y(ωi,n)|,并按10为底数并取其对数Y2(ωi,n)=20*log10Y1(ωi,n);所述步骤c中,将连续N帧信号组成一组输入向量X;所述步骤d中,采用DNN深度学习模型,包含输入层向量大小为(I×N)×1,三层隐藏层大小都为M×1,输出大小为(I+1)×1,输入层为N帧频谱信号Y2(ωi,n)按顺序拼成的(IxN)x1向量X,隐藏层激活函数σ(x)为ReLU,其表达式为σ(x)=max(x,0),其中max(·,·)为取两个数的最大数,输出层激活函数采用softmax,其表达式为:其中si为输出层的第i个输出,xi为输出层的第i个输入,xj为输出层的第j个输入;误差函数Err采用交叉熵,其表达式为:其中yi是输出向量Y中的第i个元素,其中ln为以自然数为底数的对数。5.根...

【专利技术属性】
技术研发人员:蔡野锋叶超马登永沐永生
申请(专利权)人:中科上声苏州电子有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1