语音识别方法和装置制造方法及图纸

技术编号：12485796 阅读：128 留言：0更新日期：2015-12-11 00:03

本发明专利技术公开了一种语音识别方法和装置，属于机器学习和语音识别领域，所述方法包括：获取待识别的语音信号；采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息。其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比，本发明专利技术具有速度快、精度高的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和语音识别领域，特别是指一种语音识别方法和装置。
技术介绍
人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够通过语音进行交流，无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的不断发展，人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本，以便机器理解和产生相应的操作，对实现机器智能具有重要的意义。近年来，涌现了一些的语音识别方法，比较常用的语音识别方法有：模板匹配的方法和利用人工神经网络的方法。其中，隐马尔科夫模型（HMM，Hidden Markov Model)是最常用的模板匹配方法，该方法能够合理地模仿人的言语过程，较好地描述语音信号的整体非平稳性和局部平稳性；人工神经网络（ANN，Artificial Neural Network)能够模拟人类神经元的活动，具有自适应性、容错性、鲁棒性和学习性。但是，隐马尔科夫模型没有考虑帧与帧之间的相关性，其对概率密度的先验分布的假设缺乏非线性的判别能力，会导致系统精确度差，而且对操作环境的变化十分敏感；而人工神经网络增加了训练的计算要求，由于神经网络缺少对时间依赖问题的建模能力，不能适应语音时间序列，在连续识别任务方面表现很差。
技术实现思路
本专利技术要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。为解决上述技术问题，本专利技术提供技术方案如下：一种语音识别方法，包括：获取待识别的语音信号；采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；将所述MFCC特征输入预先训练好...

【技术保护点】
一种语音识别方法，其特征在于，包括：获取待识别的语音信号；采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘孟竹，唐青松，张祥德，
申请(专利权)人：北京天诚盛业科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人