一种语音识别方法及装置制造方法及图纸

技术编号：22058709 阅读：26 留言：0更新日期：2019-09-07 16:34

本发明专利技术公开了一种语音识别方法及装置，所述方法包括：1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。应用本发明专利技术实施例，实现了语音的流式识别。

A Speech Recognition Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法及装置
本专利技术涉及一种识别方法及装置，更具体涉及一种语音识别方法及装置。
技术介绍
随着技术的发展，语音识别技术也得到了极大的发展。由于语音信号为模拟信号，目前，通常使用梅尔频率倒谱系数(或梅尔标度滤波器组)和递归神经网络及卷积神经网络进行。卷积神经网络是人工神经网络的一种，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。递归神经网络结合了多层次表征，经证明，这些表征使递归神经网络语音识别中非常有效。但是，专利技术发现在使用递归神经网络识别时，由于全局注意力的计算需要获取完整的语音数据，导致无法做到流式识别。
技术实现思路
本专利技术所要解决的技术问题在于提供了一种语音识别方法及装置，解决现有技术无法进行流式识别的技术问题。本专利技术是通过以下技术方案解决上述技术问题的：本专利技术实施例提供了一种语音识别方法，所述方法包括：1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。可选的，所述步骤1)，包括：按照预设的窗口长度和移动步长，对待识别语音信号进行分帧处理；利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；...

【技术保护点】
1.一种语音识别方法，其特征在于，所述方法包括：1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。2.根据权利要求1所述的一种语音识别方法，其特征在于，所述步骤1)，包括：按照预设的窗口长度和移动步长，对待识别语音信号进行分帧处理；利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；对加窗后的语音信号进行傅里叶变换处理，并获取变换后的语音信号的能量谱；在梅尔刻度上使用三角滤波器获取所述能量谱的频带；对所述频带信号进行离散余弦变换，获取所述待识别语音信号的梅尔频率特征序列。3.根据权利要求1所述的一种语音识别方法，其特征在于，所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带，包括：利用公式，获取所述能量谱的频带，其中，Hm(k)为第k时刻的能谱频带；k为频率域点的下标；m为滤波器下标；f(m-1)为频率域第m-1个点的值；f(m)为频率域第m个点的值；且4.根据权利要求1所述的一种语音识别方法，其特征在于，所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，包括：利用公式，获取当前语音特征的注意力值，其中，eij为当前语音特征的注意力值；为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值；w为预设权重；bias为预设的偏置；i为；j为；利用公式，获取当前时刻的注意力值，其中，aij为当前时刻的注意力值；eik为所有时刻注意力的值；w为预设权重；bias为预设的偏置；利用公式，获取当前时刻的递归神经网络隐状态值，其中，hi为当前时刻的递归神经网络隐状态值；为当前语音特征对应的当前时刻的隐状态值；w为预设权重；bias为预设的偏置；利用公式，yi＝hi*wh+xi*wx+bias，获取当前时刻的递归神经网络的输出，其中，yi为当前时刻的递归神经网络的输出；hi为注意力网络第i时刻的输出；wh为递归神经网络中隐单元间相乘的权重；xi为递归神经网络第i时刻的输入，即卷积神经网...

【专利技术属性】
技术研发人员：晋博琛，刘永鑫，
申请(专利权)人：北京大牛儿科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人