一种基于预训练和双向LSTM的语音识别方法技术

技术编号：19217351 阅读：29 留言：0更新日期：2018-10-20 07:18

本发明专利技术公开了一种模型预训练和双向LSTM的语音识别方法，属于深度学习和语音识别领域。1)输入待处理语音信号；2)预处理；3)提取梅尔倒谱系数及动态差分得到语音特征；4)构建双向LSTM结构；5)使用maxout函数优化双向LSTM，得到maxout‑biLSTM；6)模型预训练；7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练，得到结果。本发明专利技术使用maxout激活函数改进了双向LSTM的原激活函数，并且使用了模型预训练的方法，提高了声学模型在噪声环境下的鲁棒性，可应用于高噪声环境下语音识别模型的构建与训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练和双向LSTM的语音识别方法
本专利技术涉及一种模型预训练和双向LSTM的语音识别方法，特别涉及一种基于预训练、maxout激活函数以及双向LSTM模型，在高噪声环境下能够显著提高神经网络抗噪性能力的语音识别方法，属于深度学习和语音识别领域。
技术介绍
随着计算机软硬件技术的不断发展和广泛应用，语音识别技术得到了迅速发展，语音识别研究也越来越受到人们的关注。近年来深度学习在语音识别领域的成功应用，也使得语音识别领域取得了很好的成果。但在实际生活的高噪声情况下语音识别系统的性能往往急剧下降，其问题的本质在于语音识别系统在高噪声环境下鲁棒性不足。针对上述问题，传统语音识别技术在训练声学模型前多使用语音增强技术来对语音数据进行降噪除噪。语音增强技术是指通过信号处理的方法在处理语音信号前将采集过程中的混叠、高次谐波失真、高频等等因素去除，以获得”纯净”的语音信号。语音降噪算法可以分为两大类：无监督和有监督算法。其中无监督条件下的语音降噪算法主要有以下几种方法：谱减法，基于统计模型的方法，基于子空间的方法。谱减法的核心思路是估计噪声的功率谱并将其从嘈杂语音中减去；基于统计模型的方法则是将降噪问题归入到一个统计的估计框架中。一般常见的方法有：维纳滤波、最小均方误差方法和最大后验法。基于统计模型的方法一般需要假设语音信号和噪声信号是独立的，且服从特定分布；基于子空间的方法则是假设干净的语音信号子空间和噪声子空间是正交的，因此可以通过线性代数的方法将两个子空间进行分离。无监督条件下的语音降噪算法的优点在于，对平稳噪声具有显著的抑制效果。但是对于非平稳噪声，其...

【技术保护点】
1.一种模型预训练和双向LSTM的语音识别方法，其特征在于：核心思想是改进了传统LSTM的激活函数，有效提高了模型在噪声环境下的鲁棒性；包括如下步骤：步骤一：输入待处理语音信号；步骤二：对步骤一输入的待处理语音信号进行预处理，得到预处理后的帧信号，包括如下子步骤：步骤2.1预加重，将步骤一输入的待处理语音信号通过一个高通滤波器，得到预加重后信号；步骤2.2分帧，选取25ms帧长，将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n)，其中，n＝0，1...，N‑1，N为帧内采样点个数；步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号，如公式(1)：T′(i)＝T(i)*Hi (1)其中，T(i)表示第i个语音帧信号；T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号，Hi为当前帧对应的汉明窗函数，i的取值范围是0至N‑1，N为帧采样点个数；其中，汉明窗函数为公式(2)：

【技术特征摘要】
1.一种模型预训练和双向LSTM的语音识别方法，其特征在于：核心思想是改进了传统LSTM的激活函数，有效提高了模型在噪声环境下的鲁棒性；包括如下步骤：步骤一：输入待处理语音信号；步骤二：对步骤一输入的待处理语音信号进行预处理，得到预处理后的帧信号，包括如下子步骤：步骤2.1预加重，将步骤一输入的待处理语音信号通过一个高通滤波器，得到预加重后信号；步骤2.2分帧，选取25ms帧长，将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n)，其中，n＝0，1...，N-1，N为帧内采样点个数；步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号，如公式(1)：T′(i)＝T(i)*Hi(1)其中，T(i)表示第i个语音帧信号；T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号，Hi为当前帧对应的汉明窗函数，i的取值范围是0至N-1，N为帧采样点个数；其中，汉明窗函数为公式(2)：其中，cos为余弦函数，i为当前对应的帧序号，i的取值范围是0至N-1，+为帧内采样点个数，π为圆周率；步骤三：对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数，再计算信号能量及提取梅尔倒谱系数的动态差分参数，得到语音特征；其中，梅尔频率倒谱系数全称为Mel-frequencyCepstrumCoefficients，简称MFCC；步骤三包括如下子步骤：步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换，得到各帧的幅度谱x(k)；步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤，得出梅尔频谱；具体为：使用M个带有梅尔刻度的三角形滤波器组成的滤波器组，将步骤3.1得到的频谱对应到梅尔刻度上，得到梅尔频谱；步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m)，如公式(3)：式中，Fm(k)是第k个幅度谱的第m滤波器的频率响应，ln为对数函数，m的取值范围是1至M，m为对应频段的序号；步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC，记作为C(n)，如公式(4)：其中，L指MFCC的阶数，L取12；M是指三角形滤波器的个数，C(j)是第j阶的MFCC；步骤3.5计算从t1时刻到t2时刻，每帧信号的能量En，如公式(5)：其中，T′为加窗后的语音信号，t为当前时刻；步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分，以及每帧信号能量的一阶差分和二阶差分，并补上1维叠加帧，构成一帧信号的语音特征；其中，每帧信号的语音特征包括12维MFCC，12维MFCC的一阶差分，12维MFCC的二阶差分，1维能量，1维能量的一阶差分和1维能量的二阶差分，1维叠加帧，共40维语音特征；步骤四：构建基于maxout函数的双向...

【专利技术属性】
技术研发人员：金福生，王茹楠，张俊逸，韩翔宇，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人