一种语音识别方法及装置制造方法及图纸

技术编号:22058709 阅读:26 留言:0更新日期:2019-09-07 16:34
本发明专利技术公开了一种语音识别方法及装置,所述方法包括:1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。应用本发明专利技术实施例,实现了语音的流式识别。

A Speech Recognition Method and Device

【技术实现步骤摘要】
一种语音识别方法及装置
本专利技术涉及一种识别方法及装置,更具体涉及一种语音识别方法及装置。
技术介绍
随着技术的发展,语音识别技术也得到了极大的发展。由于语音信号为模拟信号,目前,通常使用梅尔频率倒谱系数(或梅尔标度滤波器组)和递归神经网络及卷积神经网络进行。卷积神经网络是人工神经网络的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。递归神经网络结合了多层次表征,经证明,这些表征使递归神经网络语音识别中非常有效。但是,专利技术发现在使用递归神经网络识别时,由于全局注意力的计算需要获取完整的语音数据,导致无法做到流式识别。
技术实现思路
本专利技术所要解决的技术问题在于提供了一种语音识别方法及装置,解决现有技术无法进行流式识别的技术问题。本专利技术是通过以下技术方案解决上述技术问题的:本专利技术实施例提供了一种语音识别方法,所述方法包括:1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。可选的,所述步骤1),包括:按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;在梅尔刻度上使用三角滤波器获取所述能量谱的频带;对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。可选的,所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带,包括:利用公式,获取所述能量谱的频带,其中,Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且可选的,所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,包括:利用公式,获取当前语音特征的注意力值,其中,eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;利用公式,获取当前时刻的注意力值,其中,aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;利用公式,获取当前时刻的递归神经网络隐状态值,其中,hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。本专利技术实施例提供了一种语音识别装置,所述装置包括:处理模块,用于对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;编码模块,用于针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;输出模块,用于将当前语音特征的下一语音特征作为当前语音特征,并触发编码模块,直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。可选的,所述处理模块,用于:按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;在梅尔刻度上使用三角滤波器获取所述能量谱的频带;对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。可选的,所述处理模块,用于:利用公式,获取所述能量谱的频带,其中,Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且可选的,所述编码模块,用于:利用公式,获取当前语音特征的注意力值,其中,eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;利用公式,获取当前时刻的注意力值,其中,aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;利用公式,获取当前时刻的递归神经网络隐状态值,其中,hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。本专利技术相比现有技术具有以下优点:应用本专利技术实施例,采用梅尔频率倒谱系数作为输入特征,后续通过卷积神经网络进一步编码后,通过递归神经网络进行分类,在使用递归神经网络进行识别时,在时间轴上进行从左到右的隐状态累加,在每一个时刻通过注意力机制进行权重的计算和进一步调整,这样既可以结合卷积神经网络和递归神经网络的拟合能力,又可以结合注意力机制对输入数据的有效取舍,并不需要全局数据进行计算,实现了语音的流式识别。附图说明图1为本专利技术实施例提供的一种语音识别方法的流程示意图;图2为本专利技术实施例提供的一种语音识别方法的原理示意图;图3为本专利技术实施例提供的一种语音识别装置的结构示意图;具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术实施例提供了一种语音识别方法及装置,下面首先就本专利技术实施例提供的一种语音识别方法进行介绍。图1为本专利技术实施例提供的一种语音识别方法的流程示意图;图2为本专利技术实施例提供的一种语音识别方法的原理示意图,如图1和图2所示,所述方法包括:S101:对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;具体的,本步骤可以包括:A:按照预设的窗口长度,如20毫秒;按照预设的移动步长,如10ms,对待识别语音信号进行分帧处理;得到语音信号帧序列。B:然后,利用汉明窗加窗方法,利用公式,对分帧后的语音信号进行加窗处理,其中,wn为加窗后的第n帧语音信号;n为语音信号帧的序号,且0≤n≤N-1,且N为窗口长度。C:对加窗后的语音信号进行傅里叶变换处理,以将语音信号从本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。2.根据权利要求1所述的一种语音识别方法,其特征在于,所述步骤1),包括:按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;在梅尔刻度上使用三角滤波器获取所述能量谱的频带;对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。3.根据权利要求1所述的一种语音识别方法,其特征在于,所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带,包括:利用公式,获取所述能量谱的频带,其中,Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且4.根据权利要求1所述的一种语音识别方法,其特征在于,所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,包括:利用公式,获取当前语音特征的注意力值,其中,eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;利用公式,获取当前时刻的注意力值,其中,aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;利用公式,获取当前时刻的递归神经网络隐状态值,其中,hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网...

【专利技术属性】
技术研发人员:晋博琛刘永鑫
申请(专利权)人:北京大牛儿科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1