一种基于预训练和双向LSTM的语音识别方法技术

技术编号:19217351 阅读:29 留言:0更新日期:2018-10-20 07:18
本发明专利技术公开了一种模型预训练和双向LSTM的语音识别方法,属于深度学习和语音识别领域。1)输入待处理语音信号;2)预处理;3)提取梅尔倒谱系数及动态差分得到语音特征;4)构建双向LSTM结构;5)使用maxout函数优化双向LSTM,得到maxout‑biLSTM;6)模型预训练;7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。本发明专利技术使用maxout激活函数改进了双向LSTM的原激活函数,并且使用了模型预训练的方法,提高了声学模型在噪声环境下的鲁棒性,可应用于高噪声环境下语音识别模型的构建与训练。

【技术实现步骤摘要】
一种基于预训练和双向LSTM的语音识别方法
本专利技术涉及一种模型预训练和双向LSTM的语音识别方法,特别涉及一种基于预训练、maxout激活函数以及双向LSTM模型,在高噪声环境下能够显著提高神经网络抗噪性能力的语音识别方法,属于深度学习和语音识别领域。
技术介绍
随着计算机软硬件技术的不断发展和广泛应用,语音识别技术得到了迅速发展,语音识别研究也越来越受到人们的关注。近年来深度学习在语音识别领域的成功应用,也使得语音识别领域取得了很好的成果。但在实际生活的高噪声情况下语音识别系统的性能往往急剧下降,其问题的本质在于语音识别系统在高噪声环境下鲁棒性不足。针对上述问题,传统语音识别技术在训练声学模型前多使用语音增强技术来对语音数据进行降噪除噪。语音增强技术是指通过信号处理的方法在处理语音信号前将采集过程中的混叠、高次谐波失真、高频等等因素去除,以获得”纯净”的语音信号。语音降噪算法可以分为两大类:无监督和有监督算法。其中无监督条件下的语音降噪算法主要有以下几种方法:谱减法,基于统计模型的方法,基于子空间的方法。谱减法的核心思路是估计噪声的功率谱并将其从嘈杂语音中减去;基于统计模型的方法则是将降噪问题归入到一个统计的估计框架中。一般常见的方法有:维纳滤波、最小均方误差方法和最大后验法。基于统计模型的方法一般需要假设语音信号和噪声信号是独立的,且服从特定分布;基于子空间的方法则是假设干净的语音信号子空间和噪声子空间是正交的,因此可以通过线性代数的方法将两个子空间进行分离。无监督条件下的语音降噪算法的优点在于,对平稳噪声具有显著的抑制效果。但是对于非平稳噪声,其往往不能得到很好的降噪效果。而有监督类算法的优点则是在非平稳噪声情况下也可以得到相对较好的降噪效果。有监督条件下语音降噪算法则主要是深度神经网络类算法。深度神经网络类算法是用基于深度学习的方法,从训练数据中学习语音和噪音的特征。其主要思路是根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,在噪音占主导的情况下把对应的时频单元的能量设为0,或者在目标语音占主导的情况下保持原样。从而将分类任务转换成了一个二分类问题,以此实现语音降噪的目标。但是,上述语音增强技术仍存在一些不足。例如,谱减法的缺点是由于估计噪音的时候取平均值,那么有的地方噪音强度大于平均值的时候,相减后会有残留的噪音存在;而强度小于平均值时,相减后会产生音乐噪声。同时由于没有利用明确的语音和噪声模型,其性能在很大程度上依赖于对干扰源的频谱跟踪的好坏。为了尽可能提高语音识别系统在高噪声环境下的鲁棒性,首先提出了一种无需语音增强的声学模型训练方法,即预训练方法,通过预训练得到模型初始化权重参数。随着近年来各种深度神经网络的快速发展,卷积神经网络、生成对抗网络等原本应用于其他领域的神经网络模型也被尝试着用于语音识别领域,并取得了一定的效果。其中长短期记忆网络模型由于能对潜在的任意长期序列进行建模,因此,广泛应用于因此语言、语音和翻译等方面。长短期记忆网络全称为LongShort-TermMemory,简称LSTM,是当前语音识别领域最常使用的模型。LSTM同时具备了长时记忆和短时记忆,其中长时记忆是指权重在训练过程中变化比较缓慢;而短时记忆是指激活函数从一个节点到另一个节点是短暂的。然而,在实际生活的高噪声情况下,LSTM性能往往急剧下降,问题在于模型着重于其拟合能力和对上下文的记忆能力,而忽视了模型在噪声环境下的鲁棒性。因此针对上述问题提出了使用双向循环网络结构代替原来的单向循环网络,并通过maxout激活函数对LSTM模型进一步优化,该方法简称为maxout-biLSTM。
技术实现思路
本专利技术的目的是为了解决在高噪声条件下,神经网络抗噪能力差的问题,提出了一种模型预训练和双向LSTM的语音识别方法。核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性。本专利技术的目的是通过以下技术方案实现的:步骤一:输入待处理语音信号;其中,待处理语音信号为采集到的含噪声的语音信号;步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1…,N-1,N为帧内采样点个数;步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):T′(i)=T(i)*Hi(1)其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N-1,N为帧采样点个数;其中,汉明窗函数为公式(2):其中,cos为余弦函数,i为当前对应的帧序号,i的取值范围是0至N-1,+为帧内采样点个数,π为圆周率;步骤三:对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数,再计算信号能量及提取梅尔倒谱系数的动态差分参数,得到语音特征;其中,梅尔频率倒谱系数全称为Mel-frequencyCepstrumCoefficients,简称MFCC;步骤三包括如下子步骤:步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换,得到各帧的幅度谱x(k);步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤,得出梅尔频谱;具体为:使用M个带有梅尔刻度的三角形滤波器组成的滤波器组,将步骤3.1得到的频谱对应到梅尔刻度上,得到梅尔频谱;其中,M的变化范围为22到26;步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m),如公式(3):式中,Fm(k)是第k个幅度谱的第m滤波器的频率响应,ln为对数函数,m的取值范围是1至M,m为对应频段的序号;步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC,记作为C(n),如公式(4):其中,L指MFCC的阶数,L取12;M是指三角形滤波器的个数,C(j)是第j阶的MFCC;步骤3.5计算从t1时刻到t2时刻,每帧信号的能量En,如公式(5):其中,T′为加窗后的语音信号,t为当前时刻;步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分,以及每帧信号能量的一阶差分和二阶差分,并补上1维叠加帧,构成一帧信号的语音特征;其中,每帧信号的语音特征包括12维MFCC,12维MFCC的一阶差分,12维MFCC的二阶差分,1维能量,1维能量的一阶差分和1维能量的二阶差分,1维叠加帧,共40维语音特征;步骤四:构建基于maxout函数的双向LSTM,记为maxout-biLSTM;具体为:将双向LSTM中的输入门和遗忘门的激活函数变为maxout函数;步骤五:使用maxout-biLSTM进行前向和反向传播,具体包括:步骤5.1通过公式(6)和(7)更新遗忘门限ft与输入门限it:ft=maxout(Wf[St-1,xt]+bf)(6)it=maxout(Wi[St-1,xt]+bi)(7)其中,maxout是激活函数,Wf是遗忘门的权重矩阵,本文档来自技高网
...

【技术保护点】
1.一种模型预训练和双向LSTM的语音识别方法,其特征在于:核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性;包括如下步骤:步骤一:输入待处理语音信号;步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1...,N‑1,N为帧内采样点个数;步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):T′(i)=T(i)*Hi    (1)其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N‑1,N为帧采样点个数;其中,汉明窗函数为公式(2):

【技术特征摘要】
1.一种模型预训练和双向LSTM的语音识别方法,其特征在于:核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性;包括如下步骤:步骤一:输入待处理语音信号;步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1...,N-1,N为帧内采样点个数;步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):T′(i)=T(i)*Hi(1)其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N-1,N为帧采样点个数;其中,汉明窗函数为公式(2):其中,cos为余弦函数,i为当前对应的帧序号,i的取值范围是0至N-1,+为帧内采样点个数,π为圆周率;步骤三:对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数,再计算信号能量及提取梅尔倒谱系数的动态差分参数,得到语音特征;其中,梅尔频率倒谱系数全称为Mel-frequencyCepstrumCoefficients,简称MFCC;步骤三包括如下子步骤:步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换,得到各帧的幅度谱x(k);步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤,得出梅尔频谱;具体为:使用M个带有梅尔刻度的三角形滤波器组成的滤波器组,将步骤3.1得到的频谱对应到梅尔刻度上,得到梅尔频谱;步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m),如公式(3):式中,Fm(k)是第k个幅度谱的第m滤波器的频率响应,ln为对数函数,m的取值范围是1至M,m为对应频段的序号;步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC,记作为C(n),如公式(4):其中,L指MFCC的阶数,L取12;M是指三角形滤波器的个数,C(j)是第j阶的MFCC;步骤3.5计算从t1时刻到t2时刻,每帧信号的能量En,如公式(5):其中,T′为加窗后的语音信号,t为当前时刻;步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分,以及每帧信号能量的一阶差分和二阶差分,并补上1维叠加帧,构成一帧信号的语音特征;其中,每帧信号的语音特征包括12维MFCC,12维MFCC的一阶差分,12维MFCC的二阶差分,1维能量,1维能量的一阶差分和1维能量的二阶差分,1维叠加帧,共40维语音特征;步骤四:构建基于maxout函数的双向...

【专利技术属性】
技术研发人员:金福生王茹楠张俊逸韩翔宇
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1