一种视听融合的语音识别系统技术方案

技术编号：10416765 阅读：231 留言：0更新日期：2014-09-12 09:43

本发明专利技术公开了一种视听融合的语音识别系统，采用视听耦合隐马尔科夫模型（Coupled Hidden Markov Model，CHMM），目的在于通过对视频信号和音频信号不同的采样率及延迟，允许了视听状态之间的状态的不同步（不用考虑视听同步过程）。一种视听融合的语音识别系统，包括：音频特征提取、视频特征提取、建立CHMM模型三个步骤。三个步骤之间的关系如下：对于视听语音识别系统而言就是由音频的HMM和视频的HMM组成。与单条链的HMM不同，CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系，允许音频信息和视频信息的状态的异步。另外，对于耦合隐马尔科夫模型而言，音频链和视频链所利用的最大期望算法（EM算法）进行参数估计的过程是独立的，与需要实时关联的音频视频模型相比减小了参数空间和参数复杂性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视听融合的语音识别系统
本专利技术涉及视听融合和语音识别领域，更具体的讲是一种采用了基于耦合的隐马尔科夫模型(CHMM)的视听融合的语音识别系统。
技术介绍
目前现有的语音识别技术已经取得了较大的发展并且已经应用到了多个领域，如:办公室或商务系统、制造业、电信、医疗等其他领域，然而由于较高的语音识别率通常都是在较纯净的语音环境中得到的，当处于噪声环境时，识别率将会急剧下降，而人类的语音感知具有听觉和视觉的双模型特性，从而具有很高的语音识别能力，并且在语音失真或受到噪音干扰的情况下，仍然能够达到较高的识别率，所以视听语音识别系统的研究逐渐日益引起人们的关注。该类系统通常通过综合利用说话人的音频信息和视频信息(特别是嘴部形状特征)完成语音识别。听觉和视觉具有同步性，然而在一定范围内二者之间也具有异步性。实际上，当人们说话时，在发声之前嘴部已经开始运动，发声结束后嘴部闭合恢复到自然状态又需要一定的时间。本专利技术中涉及的隐马尔可夫模型(HMM)包含两个随机过程，其中之一是Markov链，它描述了状态的转移，产生一定的状态序列，但是是被隐藏起来，无法观测的；另外一个随机过程描述了状态和观测值之间的统计对应关系。不同的状态按照各自概率函数产生一定的观测序列，观测者只能看到观测值而不能看到Markov链中的状态，只能通过一个随机过程感知状态的存在及它的特性，所以称之为隐马尔可夫模型，其基本要素包括:N:模型中隐含状态的数目。SHS1, S2, LSJ表示状态的集合。M:每个状态所对应的可能的观察值数目。记M个观测值为V= IV1, V2, LVJ。记t时...

【技术保护点】
一种视听融合的语音识别系统，其特征在于：包括音频特征提取、视频特征提取、建立CHMM模型三个步骤，三个步骤之间的关系如下：CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系，另外，对于耦合隐马尔科夫模型而言，音频链和视频链所利用的最大期望算法（EM算法）进行参数估计的过程是独立的。

【技术特征摘要】
1.一种视听融合的语音识别系统，其特征在于:包括音频特征提取、视频特征提取、建立CHMM模型三个步骤，三个步骤之间的关系如下:CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系，另外，对于耦合隐马尔科夫模型而言，音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的。2.根据权利要求1所述的一种视听融合的语音识别系统，其特征在于:所述音频特征提取步骤主要是为了得到MFCC系数。3.根据权利要求2所述的音频特征提取步骤，其特征在于:所述得到MFCC系数的实现过程为首先对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息，再求频谱幅度的平方，得到频率谱，再将每帧的频率谱参数通过一组M个(M —般为20-30个)三角形带通滤波器所组成的Mel频率滤波器，将每个频带的输出取对数，求出每一个输出的对数能量(log energy) Ek，k =1，2...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：天津思博科科技发展有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人