一种基于CNN的智能呼叫系统中的噪声去除方法技术方案

技术编号:23856220 阅读:84 留言:0更新日期:2020-04-18 11:15
本发明专利技术公开了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:将电话信号切片处理,归一化和分帧预处理;截取分帧后的切片信号;对截取的信号提取其Mel频谱;将提取的Mel频谱后输入神经网络模型进行模型训练,训练好的分类模型作为噪声分类模型;将新增的电话信号切片处理并分成奇数段;对切片信号归一化和分帧预处理;对分帧后的各段切片信号分别截取;对每段截取到的信号提取其Mel频谱;将提取的Mel频谱噪声分类模型。本发明专利技术的有益效果:通过基于CNN的分类模型识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,减少信号被送往ASR翻译为文字的错误率,避免过度衰减导致的音频失真。

A noise removal method in intelligent call system based on CNN

【技术实现步骤摘要】
一种基于CNN的智能呼叫系统中的噪声去除方法
本专利技术涉及音频处理
,具体而言,涉及一种基于CNN的智能呼叫系统中的噪声去除方法。
技术介绍
在现有的智能呼叫系统中,电话信号会经过VAD截取,然后送往ASR转换成文字。由于背景的复杂,存在大量的噪声片段。通常的处理方法是在信号截取前使用噪声抑制方法对信号进行过滤,主要基于信号的频率分布,对噪声进行估计,常用的算法有自适应滤波器,谱减法,维纳滤波法等。自适应滤波器利用前一刻获得的滤波器参数,自动调节当前滤波器参数,以适应信号和噪声随机变化的统计特性,从而实现过滤噪声;谱减法主要是在频域对噪声的频谱进行去除,然后通过逆傅里叶变换将频域信号恢复成时域信号;维纳滤波法主要通过设计数字滤波器来去除噪声。这些噪声抑制方法,只能过滤一部分噪声,而不能将截取的噪声片段完全去除,并且随着电话信号中信噪比的减小,降噪效果随之变差,还会出现某些时段由于过度衰减导致得音频失真。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于CNN的智能呼叫系统中的噪声去除方法,通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真。本专利技术提供了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;步骤102,对分帧后的切片信号进行截取;步骤103,对截取的信号提取其Mel频谱;步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;步骤202,并对切片信号进行归一化和分帧的预处理;步骤203,对分帧后的各段切片信号分别进行截取;步骤204,对每段截取的信号提取其Mel频谱;步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。作为本专利技术进一步的改进,在预处理时,采用式(1)进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。作为本专利技术进一步的改进,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。作为本专利技术进一步的改进,截取切片信号中间的20帧。作为本专利技术进一步的改进,Mel频谱特征的维度为40。作为本专利技术进一步的改进,步骤104中,所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。作为本专利技术进一步的改进,两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。作为本专利技术进一步的改进,两个CNN卷积层均使用relu作为激活函数,权重使用L1范式进行衰减,两个连接层过后经过softmax层输出信号为人声和噪声的概率值。作为本专利技术进一步的改进,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。作为本专利技术进一步的改进,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。本专利技术的有益效果为:1、本专利技术的噪声去除方法通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真;2、本专利技术的噪声去除方法在噪声识别过程中,提取Mel特征频谱供神经网络模型使用,具有高相关性,避免了非线性成份的丢失,更加适用于神经网络模型,提高了分类模型的精准度;3、本专利技术的神经网络模型采用Relu激活函数,减少了计算量,也避免了过拟合。4、本专利技术的噪声去除方法在噪声识别过程中,采用了将信号分奇数段进行测试,识别结果取众数的方法,能有效提高切片信号的识别准确率,并避免误删除人声。附图说明图1为本专利技术实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法的流程示意图;图2为本专利技术所采用的神经网络模型的示意图。具体实施方式下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。如图1所示,本专利技术实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法,包括:步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型。所述步骤1具体包括:步骤101,将电话信号进行切片处理即VAD切片,并对切片信号进行归一化和分帧的预处理。由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于做傅里叶变换到频域,提取频域特征。本专利技术的切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。步骤102,对分帧后的切片信号进行截取。由于切片信号长短不一,得到的帧数量不同,考虑到有些切片信号两端会出现少量静音部分,本专利技术截取切片信号中间的20帧,用于提取特征图片。步骤103,对截取到的20帧信号提取其Mel频谱。本专利技术提取Mel频谱,是利用其高度相关性,相较于MFCC特征来说,Mel无需DCT线性变换,不会导致非线性成份丢失,更加适用于神经网络模型使用,提高分类模型的精准度。本专利技术中,Mel频谱特征的维度为40,从而对于一个切片信号,可以得到一张(20,40)大小的特征图像。步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型。本专利技术基于CNN,CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部本文档来自技高网...

【技术保护点】
1.一种基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,包括:/n步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:/n步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;/n步骤102,对分帧后的切片信号进行截取;/n步骤103,对截取到的信号提取其Mel频谱;/n步骤104,将提取出的Mel频谱后输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;/n步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:/n步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;/n步骤202,对切片信号进行归一化和分帧的预处理;/n步骤203,对分帧后的各段切片信号分别进行截取;/n步骤204,对每段截取到的信号提取其Mel频谱;/n步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。/n

【技术特征摘要】
1.一种基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:
步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;
步骤102,对分帧后的切片信号进行截取;
步骤103,对截取到的信号提取其Mel频谱;
步骤104,将提取出的Mel频谱后输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;
步骤202,对切片信号进行归一化和分帧的预处理;
步骤203,对分帧后的各段切片信号分别进行截取;
步骤204,对每段截取到的信号提取其Mel频谱;
步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。


2.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,在预处理时,采用式(1)进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;



式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。


3.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。


4.根据权利要求1所述的基于CNN的智...

【专利技术属性】
技术研发人员:伍林尹朝阳
申请(专利权)人:杭州哲信信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1