语音识别方法和装置制造方法及图纸

技术编号:12485796 阅读:128 留言:0更新日期:2015-12-11 00:03
本发明专利技术公开了一种语音识别方法和装置,属于机器学习和语音识别领域,所述方法包括:获取待识别的语音信号;采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息。其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比,本发明专利技术具有速度快、精度高的优点。

【技术实现步骤摘要】

本专利技术涉及机器学习和语音识别领域,特别是指一种语音识别方法和装置
技术介绍
人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够 通过语音进行交流,无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的 不断发展,人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本,以便机 器理解和产生相应的操作,对实现机器智能具有重要的意义。 近年来,涌现了一些的语音识别方法,比较常用的语音识别方法有:模板匹配的方 法和利用人工神经网络的方法。其中,隐马尔科夫模型(HMM,Hidden Markov Model)是最 常用的模板匹配方法,该方法能够合理地模仿人的言语过程,较好地描述语音信号的整体 非平稳性和局部平稳性;人工神经网络(ANN,Artificial Neural Network)能够模拟人类 神经元的活动,具有自适应性、容错性、鲁棒性和学习性。但是,隐马尔科夫模型没有考虑帧 与帧之间的相关性,其对概率密度的先验分布的假设缺乏非线性的判别能力,会导致系统 精确度差,而且对操作环境的变化十分敏感;而人工神经网络增加了训练的计算要求,由于 神经网络缺少对时间依赖问题的建模能力,不能适应语音时间序列,在连续识别任务方面 表现很差。
技术实现思路
本专利技术要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。 为解决上述技术问题,本专利技术提供技术方案如下: 一种语音识别方法,包括: 获取待识别的语音信号; 采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征; 将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息; 其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归 层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练 该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值 参数。 一种语音识别装置,包括: 获取模块:用于获取待识别的语音信号; 提取模块:用于采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征; 识别模块:用于将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信 息; 其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归 层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练 该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值 参数。 本专利技术的实施例具有以下有益效果: 本专利技术的语音识别方法和装置,首先采用MFCC算法对所述语音信号进行特征提 取,得到MFCC特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参 数,能很好的反应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特 性的语音特征参量,在实际应用中能够取得较高的识别率。然后,本专利技术利用逐层训练的方 法训练RNN,所述RNN包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接 的权重矩阵和偏差向量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、 偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本专利技术中,采用的逐层训练 RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的 特征既可以很好的表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的 特点。与现有技术相比,本专利技术的具有速度快、精度高的优点。【附图说明】 图1为本专利技术的语音识别方法的流程示意图; 图2为本专利技术的语音识别方法的MFCC特征提取的流程示意图; 图3为本专利技术的语音识别方法的非递归层的RNN逐层训练方法的流程示意图; 图4为本专利技术的语音识别方法的递归层的RNN逐层训练方法的流程示意图; 图5为本专利技术的语音识别方法的end-to-end训练方法的流程示意图; 图6为本专利技术的语音识别方法的语音识别的整体流程示意图; 图7为本专利技术的语音识别方法的RNN的连接方式示意图; 图8为本专利技术的语音识别方法的自动编码器的原理示意图; 图9为本专利技术的语音识别装置的结构示意图; 图10为本专利技术的语音识别装置的结构示意图一; 图11为本专利技术的语音识别装置的结构示意图二; 图12为本专利技术的语音识别装置的结构示意图三。【具体实施方式】 为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具 体实施例进行详细描述。 名词解释: RNN(Recurrent Neural Network):递归神经网络,是一种序列模型,在神经网络 的基础上,考虑相邻时间t和t-Ι的隐含层神经元之间的连接关系。 CTC(Connectionist Temporal Classification):联结时间分类,通过对齐RNN的 输出和语音序列标签最小化目标函数。 -方面,本专利技术提供一种语音识别方法,如图1所示,包括: 步骤SlOl :获取待识别的语音信号; 本步骤中的语音信号可以在本专利技术的不同应用场景中获取,其中,本专利技术可以应 用在多种不同的应用场景中,如手机聊天工具中、手机语音搜索功能中、学习外语的校正系 统中,以及人与电脑进行语音交互的系统中等。 步骤S102 :采用MFCC算法对语音信号进行特征提取,得到MFCC特征; 本步骤中,MFCC特征的提取过程,如图2所示,MFCC特征是基于人耳听觉特性的 Mel频率倒谱系数,该特性充分考虑了人耳的听觉系统的非线性特性,将语音信号的频谱转 化为基于Mel频率的非线性频谱,再转换到倒谱域上,因此MFCC具有良好识别性能和抗噪 能力。 步骤S103 :将MFCC特征输入预先训练好的RNN,得到识别出的文本信息; 本步骤中,采用的RNN是一种序列模型,在神经网络的基础上,考虑相邻时间的隐 含层单元之间的连接关系,对非线性时间序列信号中的有效信息有突出的表征能力。 其中,RNN通过逐层训练得到,RNN包含若干隐含层,当隐含层为非递归层时,只训 练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前 一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。 本专利技术的语音识别方法,首先采用MFCC算法对语音信号进行特征提取,得到MFCC 特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数,能很好的反 应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特性的语音特征参 量,在实际应用中能够取得较高的识别率。然后,本专利技术利用逐层训练的方法训练RNN,RNN 包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向 量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层 内连接的权重矩阵和初始状态激活值参数。本专利技术中,采用的逐层训练RNN参数对非线性 时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的特征既可以很好的 表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的特点。与现有技术 相比,本专利技术的具有速度快、精度高的优点。 作为本专利技术的一种改进,如图3所示,RNN本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:获取待识别的语音信号;采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘孟竹唐青松张祥德
申请(专利权)人:北京天诚盛业科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1