一种视听融合的语音识别系统技术方案

技术编号:10416765 阅读:231 留言:0更新日期:2014-09-12 09:43
本发明专利技术公开了一种视听融合的语音识别系统,采用视听耦合隐马尔科夫模型(Coupled Hidden Markov Model,CHMM),目的在于通过对视频信号和音频信号不同的采样率及延迟,允许了视听状态之间的状态的不同步(不用考虑视听同步过程)。一种视听融合的语音识别系统,包括:音频特征提取、视频特征提取、建立CHMM模型三个步骤。三个步骤之间的关系如下:对于视听语音识别系统而言就是由音频的HMM和视频的HMM组成。与单条链的HMM不同,CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系,允许音频信息和视频信息的状态的异步。另外,对于耦合隐马尔科夫模型而言,音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的,与需要实时关联的音频视频模型相比减小了参数空间和参数复杂性。

【技术实现步骤摘要】
一种视听融合的语音识别系统
本专利技术涉及视听融合和语音识别领域,更具体的讲是一种采用了基于耦合的隐马尔科夫模型(CHMM)的视听融合的语音识别系统。
技术介绍
目前现有的语音识别技术已经取得了较大的发展并且已经应用到了多个领域,如:办公室或商务系统、制造业、电信、医疗等其他领域,然而由于较高的语音识别率通常都是在较纯净的语音环境中得到的,当处于噪声环境时,识别率将会急剧下降,而人类的语音感知具有听觉和视觉的双模型特性,从而具有很高的语音识别能力,并且在语音失真或受到噪音干扰的情况下,仍然能够达到较高的识别率,所以视听语音识别系统的研究逐渐日益引起人们的关注。该类系统通常通过综合利用说话人的音频信息和视频信息(特别是嘴部形状特征)完成语音识别。听觉和视觉具有同步性,然而在一定范围内二者之间也具有异步性。实际上,当人们说话时,在发声之前嘴部已经开始运动,发声结束后嘴部闭合恢复到自然状态又需要一定的时 间。本专利技术中涉及的隐马尔可夫模型(HMM)包含两个随机过程,其中之一是Markov链,它描述了状态的转移,产生一定的状态序列,但是是被隐藏起来,无法观测的;另外一个随机过程描述了状态和观测值之间的统计对应关系。不同的状态按照各自概率函数产生一定的观测序列,观测者只能看到观测值而不能看到Markov链中的状态,只能通过一个随机过程感知状态的存在及它的特性,所以称之为隐马尔可夫模型,其基本要素包括:N:模型中隐含状态的数目。SHS1, S2, LSJ表示状态的集合。M:每个状态所对应的可能的观察值数目。记M个观测值为V= IV1, V2, LVJ。记t时刻的观测值为Ot,则Ot e (V1, V2, LVm)。J1:初始状态的概率分布 π = ( Ji 1; π2, Ljin),其中 Ji i=P Q1=Si) I ≤ i ≤ N。A:状态转移概率矩阵。A={ai;j},其中ai;」=P (qt+1=S」| Qt=Si) I≤i,j≤NB:观测值的概率矩阵。B= {bJ;k},其中 bJ;k=P (Ot=VkI Qt=Sj) I ≤ j ≤ N,I ≤ k ≤ MHMM可以由说明书附图1表示,节点之间的箭头表示两个状态之间的条件概率关系O一个CHMM可以看作是多个HMM的集合,在它们的状态序列之间弓丨入条件概率而得到的一个多HMM的模型。其中,某一条HMM链的t时刻的状态与模型中所有相关的HMM的t-1时刻的状态有关。说明书附图1中方形的节点代表耦合链的观察节点,圆形节点代表耦合链的隐藏节点。
技术实现思路
为了解决上述问题,本专利技术公开了一种视听融合的语音识别系统,采用视听耦合隐马尔科夫模型(Coupled Hidden Markov Model, CHMM),目的在于通过对视频信号和音频信号不同的采样率及延迟,允许了视听状态之间的状态的不同步(不用考虑视听同步过程)。本专利技术是采取以下技术方案实现的:一种视听融合的语音识别系统,包括:音频特征提取、视频特征提取、建立CHMM模型三个步骤。三个步骤之间的关系如下:对于视听语音识别系统而言就是由音频的HMM和视频的HMM组成。与单条链的HMM不同,CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系,允许音频信息和视频信息的状态的异步。另外,对于耦合隐马尔科夫模型而言,音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的,与需要实时关联的音频视频模型相比减小了参数空间和参数复杂性。本专利技术的实现还包括以下的技术方案:上述音频特征提取步骤主要是为了得到Mel尺度倒谱参数(Mel-scaled CepstrumCoefficient),或称Mel频率倒谱系数,简称为MFCC。实现过程为首先对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息。再求频谱幅度的平方,得到频率谱。再将每帧的频率谱参数通过一组M个(M —般为20?30个)三角形带通滤波器所组成的Mel频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy)Ek,k=l,2,...N0再将此M个参数进行离散余弦变换得到MFCC系数。上述视频特征提取步骤主要是为了得到人在说话过程中的唇部轮廓参数。实现过程为首先对唇色进行分析,增强唇色,对图像进行二值化处理,然后根据嘴唇的形状特征四条曲线来构造唇部的轮廓。上述建立CHMM模型步骤包括CHMM模型基本参数的定义和CHMM的训练两个过程。其中CHMM的训练过程又包括得到的初始化参数和对基本参数进行重估两个阶段,其中第一个阶段,CHMM参数的估计需要利用基于Viterbi算法得到的初始化参数,第二个阶段,采用EM算法对由第一阶段得到的基本参数进行重估。本专利技术的优点和有益效果,具体体现在以下几个方面:1.本专利技术在独立训练音频和视频隐马尔科夫模型(HMM)的基础上,对CHMM模型进行初始化和训练,显著的降低了参数的空间复杂度和时间复杂度。2.耦合隐马尔科夫的统计特性,使得可以在视频、音频的状态信息不同步的情况下,随着时间的推移,仍然保持其自然相关性。实验结果表明,该模型保证了语音识别的准确性和鲁棒性。3.本专利技术利用双模态的具有不同生物特征之间的互补信息,从而得到更加精确、可靠的识别结果。【附图说明】[0021 ] 图1是HMM模型示意图;图2是唇部特征参数示意图;图3是CHMM模型示意图。【具体实施方式】一种视听融合的语音识别系统,包括:音频特征提取、视频特征提取、建立CHMM模型三个步骤。三个步骤之间的关系如下:对于视听语音识别系统而言就是由音频的HMM和视频的HMM组成。与单条链的HMM不同,CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系,允许音频信息和视频信息的状态的异步。另外,对于耦合隐马尔科夫模型而言,音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的,与需要实时关联的音频视频模型相比减小了参数空间和参数复杂性。上述音频特征提取步骤是语音识别的一个重要环节。所提取的音频特征参数既要体现语音的音频特质,又要能表现出与面部视频特征的某种联系。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。近年来,一种能够比较充分利用人耳这种特殊的感知特性的参数得到了广泛的应用,这就是Mel尺度倒谱参数(Mel-scaled Cepstrum Coefficient),或称Mel频率倒谱系数,简称为MFCC。由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。首先对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息。再求频谱幅度的平方,得到频率谱。再将每帧的频率谱参数通过一组M个(M—般为20~30个)三角形带通滤波器所组成的Mel频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy) Ek, k=l, 2,...N。再将此M个参数进行离散余弦变换得到MFCC系数。以下结合说明书附图2对本专利技术中的视频特征提取做进一步详述:上述视频特征提取步骤中将唇部的轮廓参数作为视频特征参数。首先本文档来自技高网
...

【技术保护点】
一种视听融合的语音识别系统,其特征在于:包括音频特征提取、视频特征提取、建立CHMM模型三个步骤,三个步骤之间的关系如下:CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系,另外,对于耦合隐马尔科夫模型而言,音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的。

【技术特征摘要】
1.一种视听融合的语音识别系统,其特征在于:包括音频特征提取、视频特征提取、建立CHMM模型三个步骤,三个步骤之间的关系如下:CHMM可以通过节点之间的状态转移概率捕捉到音频和视频之间的相互作用关系,另外,对于耦合隐马尔科夫模型而言,音频链和视频链所利用的最大期望算法(EM算法)进行参数估计的过程是独立的。2.根据权利要求1所述的一种视听融合的语音识别系统,其特征在于:所述音频特征提取步骤主要是为了得到MFCC系数。3.根据权利要求2所述的音频特征提取步骤,其特征在于:所述得到MFCC系数的实现过程为首先对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息,再求频谱幅度的平方,得到频率谱,再将每帧的频率谱参数通过一组M个(M —般为20-30个)三角形带通滤波器所组成的Mel频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy) Ek,k =1,2...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:天津思博科科技发展有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1