当前位置: 首页 > 专利查询>华侨大学专利>正文

一种语音识别方法技术

技术编号:20078051 阅读:38 留言:0更新日期:2019-01-15 01:33
本发明专利技术涉及一种语音识别方法,其包括所述语音识别方法包括输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断更新优化模型参数;将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模;根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。本发明专利技术在现有高斯混合隐马尔科夫模型的方法基础上,提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模,同时使用变分推断实现模型参数的求解,谋求模型鲁棒性和提高准确率。

A Speech Recognition Method

The invention relates to a speech recognition method, which includes the input speech signal, the feature vector of speech signal is extracted by using MFCC of Meier frequency cepstrum coefficient, the extracted MFCC feature vector is input into the Dirichlet distribution mixed model to calculate the observation probability, in which the optimized model parameters are updated by variational inference, and the MFCC feature vector and the description are used. The observation probability is input into the HMM, and the HMM is used to model the structure of the speech signal time series. According to the observation sequence probability of the HMM in the speech signal, the words are judged and extracted. Based on the existing method of Gauss Mixed Hidden Markov Model, the Dirichlet Mixed Model is proposed to model the observation probability of Hidden Markov Mixed Model, and the variational inference is used to solve the model parameters, so as to seek the robustness and improve the accuracy of the model.

【技术实现步骤摘要】
一种语音识别方法
本专利技术涉及一种语音识别
,更具体地涉及一种基于狄利克雷分布混合隐马尔科夫模型的语音识别方法。
技术介绍
目前,语音识别成为一种重要的人机交互形式,语音识别技术渐渐地改变着人们和生活和工作方式。自然语言是最方便、舒适和快捷的一种交互方式,是人机通信和交互的重要领域之一,最终实现人机对话自由,自动语音识别(AutomaticSpeechRecognition,ASR)是实现人机交互尤为关键的技术,其需要让计算机听懂人类的语言,从而使得计算机按照人类的指示进行操作。自动语音识别技术进过几十年的发展已经取得了显著的成效。上世纪80年代,Jelinek等科学家在贝尔实验室发现隐马尔科夫模型(HiddenMarkovModel-HMM)的特性适合语音信号建模,此后陆续有学者提出基于HMM的参数估计和识别解码等配套的算法体系,其中高斯混合模型(GaussianMixedModel-GMM)混合隐马尔科夫模型(HMM)应用尤为广泛。GMM-HMM的核心架构是通过使用隐马尔科夫模型对语音的时序进行建模,而使用高斯混合模型(GMM)对语音的观测概率进行建模
技术实现思路
在专利本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括s'n=sn-k*sn-1其中:S表示语音信号,Sn={s0,…,sN-1},n=0,…,n-1;S'表示处理之后的语音信号,Sn'={s'0,…,s'N-1},n=0,…N-1;k∈[0.9,1];步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,幅度频:其中i表示第i帧,k表示傅里叶点数;功率谱:步骤S104:使用梅尔克度滤波组过滤经过频域信号;步骤S105:使用log非线性描述能量值;步骤S106:通过离散余弦变换获取频率普的低频信息;其中,步骤S107:通过差分增加语音信号的特征的时域连续性,其中,其中dt表示第t个一阶差分,c...

【专利技术属性】
技术研发人员:范文涛杜吉祥符江鹏
申请(专利权)人:华侨大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1