一种基于深度学习的防啸叫扩声方法及系统技术方案

技术编号：22105423 阅读：31 留言：0更新日期：2019-09-14 04:34

本发明专利技术公开了一种基于深度学习的防啸叫扩声方法及系统，避免了传统方法需要通过人工选择特征向量的缺陷。一种基于深度学习的防啸叫扩声方法，包括如下步骤：A、对采集的语音信号进行预加重；B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合，作为深度学习模型的输入；C、利用训练完的深度学习模型，对步骤B中的输入进行计算，并输出向量；D、取所述输出向量的最大值，若其为所述输出向量中的最后一个元素，则不存在啸叫；否，则存在啸叫，执行下一步骤；E、精确定位啸叫频率；F、根据精确定位的啸叫频率，进行抑制。

A Method and System of Anti-whistling and Sound Enhancement Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的防啸叫扩声方法及系统
本专利技术属于扩声应用领域，涉及一种基于深度学习的防啸叫扩声方法及系统，特别涉及一种基于深度学习的防啸叫教育扩声方法及系统。
技术介绍
在如学校教室等环境中，由于房间较大，通常需要扩声系统，才能让最后一排学生也能听清楚讲台老师的讲课。尽管扩声系统可以有助于教师讲课，但处理不当，会引入新的问题。如图1所示，在教育扩声系统中，音频信号经过扬声器系统输出，由传声器拾音后由功率放大器放大后再由扬声器系统输出，形成扬声器系统-传声器-放大器-扬声器系统之间的正反馈，在满足振幅平衡和相位平衡的条件下，此循环会导致整个闭环系统自激振荡产生啸叫现象。啸叫声不仅会造成输出信号失真，恶化主观听音感受，阻碍正常的语音交流，同时有可能会因为输出功率过高而烧坏功率放大器，造成器件损坏。教育扩声系统中常见的啸叫抑制方法主要有：(1)移频移相；(2)陷波法；(3)自适应滤波器。其中，移频移相对系统音质损伤较大，且提高增益有限；自适应滤波器理论上可以提高无穷大增益，且语音损伤较小，但其对系统非线性敏感度较高，且计算复杂度高，降低成本比较困难。而陷波法在语音损伤和计算复杂度之间取得了一个较好的平衡，因此被广泛应用。陷波法包括啸叫检测和抑制两部分，其中检测部分通过各种特征判断是否存在啸叫频率点，抑制部分根据检测部分的结果，对相应的啸叫频率成份进行抑制。然而，传统的陷波法中，需要通过人工选择特征向量。
技术实现思路
本专利技术的目的是提供一种基于深度学习的防啸叫扩声方法及系统，利用深度学习模型，可以直接从原始数据中获取啸叫频率点，避免了传统方法需要通过人工选...

【技术保护点】
1.一种基于深度学习的防啸叫扩声方法，其特征在于，包括如下步骤：A、对采集的语音信号进行预加重；B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合，作为深度学习模型的输入；C、利用训练完的深度学习模型，对步骤B中的输入进行计算，并输出向量；D、取所述输出向量的最大值，若其为所述输出向量中的最后一个元素，则不存在啸叫；否，则存在啸叫，执行下一步骤；E、精确定位啸叫频率；F、根据精确定位的啸叫频率，进行抑制。

【技术特征摘要】
1.一种基于深度学习的防啸叫扩声方法，其特征在于，包括如下步骤：A、对采集的语音信号进行预加重；B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合，作为深度学习模型的输入；C、利用训练完的深度学习模型，对步骤B中的输入进行计算，并输出向量；D、取所述输出向量的最大值，若其为所述输出向量中的最后一个元素，则不存在啸叫；否，则存在啸叫，执行下一步骤；E、精确定位啸叫频率；F、根据精确定位的啸叫频率，进行抑制。2.根据权利要求1所述的防啸叫扩声方法，其特征在于，所述步骤C中的深度学习模型由如下步骤训练或所述防啸叫扩声方法还包括如下步骤：a、提供预采集的声音作为训练音源信号，并进行预加重；b、对步骤a预加重后的训练音源信号进行分帧、FFT变换并取频谱幅度值的对数；c、将连续多帧信号组成一组输入向量X，判断这组信号是否存在啸叫信号并记录啸叫信号位置，若不存在啸叫信号，则标记为其中I为观察频率个数，如果存在啸叫信号，则标记为其中1对应啸叫频率处的位置；d、当输入向量为非啸叫信号时，则标记输出向量当输入向量为啸叫信号时，则标记输出向量e、将步骤c的输入向量X和步骤d的输出向量Y作为训练集，使用后向传播算法对深度学习模型进行训练。3.根据权利要求2所述的防啸叫扩声方法，其特征在于，所述步骤A或步骤a中，预加重滤波器为H(z)＝1-αz-1，其中，z为延时单元，α为调节参数。4.根据权利要求2所述的防啸叫扩声方法，其特征在于，所述步骤B或步骤b中，对分帧后的每帧信号做FFT变换Y(ωi,n)，ωi为数字频率，i＝0,1,…(I-1)，n为帧数，对FFT频谱取绝对值Y1(ωi,n)＝|Y(ωi,n)|，并按10为底数并取其对数Y2(ωi,n)＝20*log10Y1(ωi,n)；所述步骤c中，将连续N帧信号组成一组输入向量X；所述步骤d中，采用DNN深度学习模型，包含输入层向量大小为(I×N)×1，三层隐藏层大小都为M×1，输出大小为(I+1)×1，输入层为N帧频谱信号Y2(ωi,n)按顺序拼成的(IxN)x1向量X，隐藏层激活函数σ(x)为ReLU，其表达式为σ(x)＝max(x,0)，其中max(·,·)为取两个数的最大数，输出层激活函数采用softmax，其表达式为：其中si为输出层的第i个输出，xi为输出层的第i个输入，xj为输出层的第j个输入；误差函数Err采用交叉熵，其表达式为：其中yi是输出向量Y中的第i个元素，其中ln为以自然数为底数的对数。5.根...

【专利技术属性】
技术研发人员：蔡野锋，叶超，马登永，沐永生，
申请(专利权)人：中科上声苏州电子有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人