一种语音识别系统中基于多个卷积神经网络的语音增强算法技术方案

技术编号:18239117 阅读:53 留言:0更新日期:2018-06-17 03:03
本发明专利技术涉及一种基于CNN的噪声识别以及一种结合CNN与平稳快速递归最小二乘法(SFTRLS)的语音增强模型‑‑SFTRLS‑CNN。首先提取带噪音频段中噪声的MFCC等648维特征,进入训练好的第一种卷积神经网络中来识别出噪声的环境类型。然后将提取的音频特征、信噪比和噪声类型值组成658维度特征,采用第二种卷积神经网络来自适应地匹配到SFTRLS算法进行语音增强的最佳遗忘因子。最后通过平稳快速递归最小二乘法实现在各个环境下的降噪处理。该算法让增强模型适用于不同的噪声环境,提高了自适应能力。相比传统的SFTRLS,语音质量评价指标值也更佳。 1

Speech enhancement algorithm based on multiple convolutional neural networks in speech recognition system

The invention relates to a noise recognition based on CNN and a speech enhancement model combining the CNN and the stationary fast recursive least squares (SFTRLS), SFTRLS CNN. First of all, 648 dimensional features such as MFCC and noise in noisy frequency band are extracted to enter the first convolution neural network trained to identify the noise type. Then the 658 dimension features of the extracted audio feature, signal to noise ratio and noise type value are composed, and the second convolution neural networks are used to get the best forgetting factor of speech enhancement by adaptively matching the SFTRLS algorithm. Finally, through the fast recursive least squares method, the noise reduction in various environments is realized. This algorithm enables the enhancement model to be applied to different noise environments and improves the adaptive ability. Compared with the traditional SFTRLS, the speech quality evaluation index is also better. One

【技术实现步骤摘要】
一种语音识别系统中基于多个卷积神经网络的语音增强算法
本专利技术涉及到语音识别系统中噪声识别技术、语音增强技术以及卷积神经网络技术。
技术介绍
语音增强技术是指对带噪语音信号进行去噪处理。从语音增强技术发展的重要历程来看,按照处理方式不同,语音增强算法主要有三类:基于谱减法、基于统计学和深度学习的语音增强技术。基于谱减法的增强技术:经典谱减法用无语音环境计量出噪声频谱的估计值,替代有语音环境噪声的频谱值。通过减去带噪语音的频谱从而获得纯净语音的功率谱。谱减法可利用估计到的初始噪声功率谱和带噪语音信号的相位谱来重构增强后的语音信号。该方法实现简单和运算量小,但它的实现需要两个前提条件:第一,假设噪声环境在统计上是平稳的;第二,加性噪声信号和语音信号不相关。它的不足之处是残留一些节奏性起伏的“音乐噪声”,在听觉上类似低沉音乐在1979年,Berouti等人在前人研究的谱减法上加入了两个系数:一个修正系数和阈值,从而扩展了算法的增强作用。但由于系数一般依赖实验经验值,算法在一些噪声环境下难以起作用,鲁棒性相对比较差。基于统计技术的增强技术:随着统计学的发展,以统计理论为基础的语音增强技术也在逐步发展。Epharim等人提出了最小均方误差短时幅度谱(mnimummeansquareeeeorofshorttimeamplitudespectrum,MMSE-STSA)算法。1985年,他们加入听觉感受,在MMSE-STSA的基础上提出了Log-MMSE-STSA算法。该算法在性能上取得了比谱减法和维纳滤波器法要好的效果,但处于非平稳环境下时依然效果不理想。1987年,Paliwal提出了经典的卡尔曼(Kalman)滤波法。该算法可以让最小均方误差在非平稳环境下依然能得到最优效果。但由于信号参数的提取方式相对复杂,不具备普适性而难以有实际应用。基于MMSE的研究上,Gerkmann等人于2013年提出的在原来基础上估计语音频谱振幅的十分适用于非平稳噪声的算法。2013年,Sameti等人在Mel频域上加入了隐马尔科夫模型(HMM),提出的平行倒谱和谱(ParallelCepstralandSpectral,PCS)算法可减少语音信号变换到Mel域的失真程度。同样地它对于非平稳噪声环境中的语音增强效果比较好,但算法复杂度相对比较高。基于深度学习的增强技术:1989年,Tamura最先提出了用神经网络进行带噪语音和干净语音非线性关系的学习。基于时域中它们之间不清晰的关系,Xie提出了在频谱域中来训练出它们的非线性关系Bengio提出了源于径向基函数(RadialBasisFunction,RBF)来对网络进行改进,从而减少了网络的学习时间。然而由于当时网络规模比较小,随着噪声数据复杂度变大,神经网络的训练变得缓慢,在一定的学习之后也容易陷入局部最优解。这些缺陷一度阻碍着学者们运用神经网络在语音增强领域上的研究。在往后的十余年,伴随深度学习的深入研究,通过数据驱动的深度网络被运用到语音增强领域,取得了一定的实际作用。不过语音增强是一个实时性处理比较强的过程,如果要达到比较理想的状态,需要网络处理的时间速度足够快。直接对语音数据建立网络映射关系,会消耗一定时间。单独采用深度网络实现语音增强耗时比较大,也需要比较大量的数据。为了在少量的数据下快速实现自适应的语音增强处理,对各种噪声环境先进行分类,针对不同的噪声采用不同的降噪处理过程,可以提高算法的自适应能力,同时相比直接的网络回归计算加上语音合成计算,可以在一定程度上减少算法的复杂度。本专利技术提出一种卷积神经网络和传统递归最小二乘增强算法相结合的语音增强算法,既利用了卷积神经网络学习能力、自适应能力强的优点,也利用了传统语音增强算法处理时效性高的优点。利用两种卷积神经网络联合识别的工作原理,结合不同种噪声之间、以及同种噪声不同信噪比语音的特征差异,对系统输入的带噪语音进行高维度的充足特征的提取,实现噪声识别,并将组合特征最终输入到第二种卷积神经网络里面,匹配出SFTRLS算法的遗忘因子从而实现各个环境最佳的语音增强。神经网络的训练有一定的耗时,不过在实际运用中是使用训练好的结果进行计算,可以满足语音识别系统的实时性。
技术实现思路
本专利技术实现的技术方案是:算法首先利用卷积神经网络对VAD后的噪声段进行噪声识别,判断出当前含噪语音中噪声的种类。接着以噪声识别的输出为输入,利用SFTRLS算法收敛性能和对非平稳噪声抑制性比一般传统算法效果更好以及对遗忘因子依赖较强的特点,通过线下卷积神经网络训练学习到SFTRLS针对每种噪声处理的最佳遗忘因子。在线上运用中,算法匹配到最佳的遗忘因子系数,然后通过SFTRLS对含噪语音进行增强处理。
技术实现思路
有以下几点:1:对语音识别系统中的语音输入信号进行数据预处理,即归一化、预加重、分帧加窗。2:通过语音端点检测来提取出噪声段,对噪声段分别计算出包括MFCC、F0、过零率等648维度特征,并计算出语音环境中的信噪比。3:构造噪声识别的卷积神经网络模型,包含两个卷积层、两个池化层以及两个全连接层。4:利用训练好的第一种卷积神经网络模型对第2点中提取出来的648维特征进行识别预测,网络的输出表示当前噪声信号的种类C。5:利用5个卷积层、3个池化层、3个BN层以及3个全连接层构造一个深度卷积神经网络。6:将第2点中计算的特征、信噪比和步骤三计算的噪声信号种类C组成一个658维度的矢量,输入到第5点中建立的卷积神经网络中。由于该网络已经通过线上大量的学习训练,经过输入可最终输出平稳快速递归最小二乘法在该噪声环境下处理的最佳遗忘因子。7:将第6中自动匹配的最佳遗忘因子输入到平稳快速递归最小二乘法中,完成语音增强处理从而得到干净音频。本专利技术针对现有的语音识别系统在复杂多变的噪声环境中存在着语音降噪自适应能力不强,以及传统谱减法引入“音乐噪声”导致最终识别效果不理想的问题,与平稳快速递归最小二乘法结合,提出了一种基于两种卷积神经网络的语音增强算法。本专利技术的优点如下:充分利用了卷积神经网络对高维度数据可充分进行非线性处理、强鲁棒性、识别准确率高的优点,能够让平稳快速递归最小二乘模型适用于多种的噪声环境,在非平稳噪声环境中也依然有良好效果,最终达到改善语音质量的目的。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1本专利技术总的实现流程图;图2噪声识别流程图;图3噪声识别的卷积神经网络结构图;图4语音增强环节的卷积神经网络结构图;图5本专利技术噪声识别模型的性能对比图;图6本专利技术噪声识别模型的性能对比图。具体实施方式本专利技术的算法模型为SFTRLS-CNN,模型具体的处理流程如图1所示。其中包含了噪声识别模型NC-CNN,NC-CNN的处理流程如图2所示。下面进行专利技术各步骤中的具体实施说明。步骤1:对语音识别系统中的语音输入信号进行数据预处理,即归一化、预加重、分帧加窗。(1)首先用sox将数据进行统一采样,采样率为16kHz,将模拟输入信号s(t本文档来自技高网
...
一种语音识别系统中基于多个卷积神经网络的语音增强算法

【技术保护点】
1.对语音识别系统中的语音输入信号进行数据预处理,即归一化、预加重、分帧加窗。

【技术特征摘要】
1.对语音识别系统中的语音输入信号进行数据预处理,即归一化、预加重、分帧加窗。2.通过语音端点检测来提取出噪声段,对噪声段分别计算出包括MFCC、F0、过零率等648维度特征,并计算出语音环境中的信噪比。3.构造噪声识别的卷积神经网络模型,该模型具有结构简单,包含两个卷积层、两个池化层以及两个全连接层,参数少,计算速度较快。4.利用训练好的第一种卷积神经网络模型对步骤2中提取出来的648维特征进行识别预测,网络的输出表示当前噪声...

【专利技术属性】
技术研发人员:陈国强石城川彭驷庆
申请(专利权)人:广州音书科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1