语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:16530349 阅读:59 留言:0更新日期:2017-11-09 22:30
本发明专利技术提出了一种语音识别方法,该方法包括:获取待识别的语音数据;提取语音数据中的Filter Bank特征和MFCC特征;将MFCC特征作为GMM‑HMM模型的输入数据,获取第一似然概率矩阵;将Filter Bank特征作为二维LSTM模型的输入特征,获取后验概率矩阵;将后验概率矩阵和第一似然概率矩阵作为HMM模型的输入数据,获取第二似然概率矩阵,根据第二似然概率矩阵在音素解码网络中获取对应的目标词序列。该方法通过将混合高斯模型和深度学习模型结合,且采用创新的二维LSTM模型作为声学模型,提高了语音识别的准确度。此外,还提出了一种语音识别装置、计算机设备及存储介质。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质
本专利技术涉及计算机处理领域,特别是涉及一种语音识别方法、装置、计算机设备及存储介质。
技术介绍
语音识别,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入。语音识别的准确度直接决定了技术应用的有效性。传统的语音识别技术是基于GMM-HMM(混合高斯模型和隐马尔科夫模型)进行声学模型的建立,近年来,随着深度学习技术的发展,基于DNN-HMM(深度学习模型和隐马尔科夫模型)进行声学模型的建立相对于GMM-HMM在识别准确度上虽然有了很大的提升,但是还有待于进一步提高语音识别的准确度。
技术实现思路
基于此,有必要针对上述语音识别准确度不够的问题,本专利技术提出了一种能更加准确的语音识别方法、装置、计算机设备及存储介质。一种语音识别方法,所述方法包括:获取待识别的语音数据;提取所述语音数据中的FilterBank特征和M本文档来自技高网...
语音识别方法、装置、计算机设备及存储介质

【技术保护点】
一种语音识别方法,所述方法包括:获取待识别的语音数据;提取所述语音数据中的Filter Bank特征和MFCC特征;将所述MFCC特征作为训练后的GMM‑HMM模型的输入数据,获取所述训练后的GMM‑HMM模型输出的第一似然概率矩阵;将所述Filter Bank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵;根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵;根据所述目标似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

【技术特征摘要】
1.一种语音识别方法,所述方法包括:获取待识别的语音数据;提取所述语音数据中的FilterBank特征和MFCC特征;将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;将所述FilterBank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵;根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵;根据所述目标似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。2.根据权利要求1所述的方法,其特征在于,所述根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵的步骤包括:将所述FilterBank特征和所述第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据,获取所述训练后DNN-HMM输出的第二似然概率矩阵;将所述后验概率矩阵和所述第二似然概率矩阵作为训练后的HMM模型的输入数据,计算得到目标似然概率矩阵。3.根据权利要求1所述的方法,其特征在于,所述提取所述语音数据中的FilterBank特征和MFCC特征的步骤包括:将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的FilterBank特征;将所述FilterBank特征经过离散余弦变换得到待识别语音数据的MFCC特征。4.根据权利要求1所述的方法,其特征在于,所述将所述FilterBank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵的步骤包括:获取待识别语音数据中每一帧语音数据对应的FilterBank特征并按照时间排序;将每一帧语音数据以及该帧的前后预设帧数的FilterBank特征作为所述训练后的二维LSTM模型的输入特征,分别进行时间维度和层次纬度的计算,获取输出的包含有时间维度和层次纬度信息的每一帧语音数据对应的音素状态上的后验概率;根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵。5.根据权利要求1所述的方法,其特征在于,在所述获取待识别的语音数据的步骤之前还包括:采用训练语料库对高斯混合模型GM...

【专利技术属性】
技术研发人员:梁浩王健宗程宁肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1