一种语音识别系统中基于多个卷积神经网络的语音增强算法技术方案

技术编号：18239117 阅读：53 留言：0更新日期：2018-06-17 03:03

本发明专利技术涉及一种基于CNN的噪声识别以及一种结合CNN与平稳快速递归最小二乘法（SFTRLS）的语音增强模型‑‑SFTRLS‑CNN。首先提取带噪音频段中噪声的MFCC等648维特征，进入训练好的第一种卷积神经网络中来识别出噪声的环境类型。然后将提取的音频特征、信噪比和噪声类型值组成658维度特征，采用第二种卷积神经网络来自适应地匹配到SFTRLS算法进行语音增强的最佳遗忘因子。最后通过平稳快速递归最小二乘法实现在各个环境下的降噪处理。该算法让增强模型适用于不同的噪声环境，提高了自适应能力。相比传统的SFTRLS，语音质量评价指标值也更佳。 1

Speech enhancement algorithm based on multiple convolutional neural networks in speech recognition system

The invention relates to a noise recognition based on CNN and a speech enhancement model combining the CNN and the stationary fast recursive least squares (SFTRLS), SFTRLS CNN. First of all, 648 dimensional features such as MFCC and noise in noisy frequency band are extracted to enter the first convolution neural network trained to identify the noise type. Then the 658 dimension features of the extracted audio feature, signal to noise ratio and noise type value are composed, and the second convolution neural networks are used to get the best forgetting factor of speech enhancement by adaptively matching the SFTRLS algorithm. Finally, through the fast recursive least squares method, the noise reduction in various environments is realized. This algorithm enables the enhancement model to be applied to different noise environments and improves the adaptive ability. Compared with the traditional SFTRLS, the speech quality evaluation index is also better. One

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别系统中基于多个卷积神经网络的语音增强算法
本专利技术涉及到语音识别系统中噪声识别技术、语音增强技术以及卷积神经网络技术。
技术介绍
语音增强技术是指对带噪语音信号进行去噪处理。从语音增强技术发展的重要历程来看，按照处理方式不同，语音增强算法主要有三类：基于谱减法、基于统计学和深度学习的语音增强技术。基于谱减法的增强技术:经典谱减法用无语音环境计量出噪声频谱的估计值，替代有语音环境噪声的频谱值。通过减去带噪语音的频谱从而获得纯净语音的功率谱。谱减法可利用估计到的初始噪声功率谱和带噪语音信号的相位谱来重构增强后的语音信号。该方法实现简单和运算量小，但它的实现需要两个前提条件：第一，假设噪声环境在统计上是平稳的；第二，加性噪声信号和语音信号不相关。它的不足之处是残留一些节奏性起伏的“音乐噪声”，在听觉上类似低沉音乐在1979年，Berouti等人在前人研究的谱减法上加入了两个系数：一个修正系数和阈值，从而扩展了算法的增强作用。但由于系数一般依赖实验经验值，算法在一些噪声环境下难以起作用，鲁棒性相对比较差。基于统计技术的增强技术:随着统计学的发展，以统计理论为基础的语音增强技术也在逐步发展。Epharim等人提出了最小均方误差短时幅度谱（mnimummeansquareeeeorofshorttimeamplitudespectrum,MMSE-STSA）算法。1985年，他们加入听觉感受，在MMSE-STSA的基础上提出了Log-MMSE-STSA算法。该算法在性能上取得了比谱减法和维纳滤波器法要好的效果，但处于非平稳环境下时依然效果不理想。1987...
一种语音识别系统中基于多个卷积神经网络的语音增强算法

【技术保护点】
1.对语音识别系统中的语音输入信号进行数据预处理，即归一化、预加重、分帧加窗。

【技术特征摘要】
1.对语音识别系统中的语音输入信号进行数据预处理，即归一化、预加重、分帧加窗。2.通过语音端点检测来提取出噪声段，对噪声段分别计算出包括MFCC、F0、过零率等648维度特征，并计算出语音环境中的信噪比。3.构造噪声识别的卷积神经网络模型，该模型具有结构简单，包含两个卷积层、两个池化层以及两个全连接层，参数少，计算速度较快。4.利用训练好的第一种卷积神经网络模型对步骤2中提取出来的648维特征进行识别预测，网络的输出表示当前噪声...

【专利技术属性】
技术研发人员：陈国强，石城川，彭驷庆，
申请(专利权)人：广州音书科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人