一种基于子空间的非特定人孤立词识别方法及装置制造方法及图纸

技术编号:7809631 阅读:233 留言:0更新日期:2012-09-27 11:59
本发明专利技术涉及自动语音识别领域,特别是一种基于子空间技术的非特定人孤立词识别方法和装置。该方法的特征在于将子空间技术应用到隐含马尔科夫模型中,首先利用所有语音数据训练全局模型,随后采用子空间自适应的方法,刻画声学基元模型,并依此建立隐含马尔可夫模型。该装置包括:语音预处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。本发明专利技术在有限数据条件下能够稳健估值。适用于训练和识别语音数据有限条件下,中等规模词表的非特定人孤立词识别。

【技术实现步骤摘要】

本专利技术涉及自动语音识别领域,具体而言,是ー种基于子空间技术的非特定人孤立词识别方法及装置。
技术介绍
语音是人类最自然、最灵活、最频繁的信息交流方式。语音中蕴含多层信息,如何自动提取这些信息便成为当前语音信号处理领域的主要研究内容。作为该领域的ー个重要分支,孤立词(Isolated Word Recognition, IffR)是利用计算机,自动从语音片段中提取内容的识别技术,在汽车导航、计算机控制、玩具等诸多领域有广泛的应用。目前,非特定人孤立词识别主要利用统计模式识别的方法,分为训练和测试两个阶段。训练阶段可分为三个步骤前端处理,特征提取和建立模型;测试阶段可分为四个步 骤前端处理,特征提取,模型匹配和分数判決。通常而言,(I)前端处理包括语音增强、活动语音检测和语音切分等信号处理技术;(2)特征提取通常选择线性预测倒谱系数(Linear Predictive CepstralCoefficients, LPCC)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)或感知线性预测(Perceptual Linear Prediction, PLP);(3)建模方法(建立模型和模型匹配)主流技术是隐含马尔科夫模型(HiddenMarkov Model, HMM);(4)分数判决根据阈值,对分数进行比较,对HMM的输出分数进行处理,给出识别结果。在上述过程中,建模方法是最为重要的ー个环节。对于非特定人的IWR算法,在进行HMM建模时,需要选择建模基元,通常有三种方法(I)整词把词作为建模的基本単元;(2)声韵母把声韵母作为建模的基本単元。在汉语中,有21个声母,37个韵母。(3)音节将音节作为建模的基本単元。音节分为无调音节和有调音节,在汉语中,无调音节有409个,有调音节有1300个。上述三种方法各有利弊。一般而言,选择的基元越精细,系统的计算复杂度就越高,推广性就越好。例如,选择整词作为基元,其计算复杂度低,识别率高(> 99% ),适用于小規模词表的IWR系统;选择声韵母或音节作为基元,扩展性好,可以通过修改词表得到便利的应用,适用于大規模词表的IWR系统,但识别率不高。选择声韵母或音节作为基元,利用HMM建模的非特定人孤立词识别系统的识别率不高的主要原因有如下几点(I)HMM的參数较多,难以准确估值;(2)识别时会引入搜索误差等。其中,对HMM參数不能准确估值是造成识别率下降的核心因素。子空间技术认为待估计的数据结构是冗余的,通过线性映射降低建模的自由度,达到准确估值的目的。子空间技术在在图像识别、文本识别、生物特征识别和雷达型号处理等领域有广泛的应用。
技术实现思路
本专利技术的目的在于提出一种基于子空间技术的非特定人孤立词识别方法和装置,以解决传统方法中隐含马尔科夫模型的參数较多,不能被准确估值的问题。本专利技术提出一种将子空间技术应用于非特定人孤立词识别方法和装置。专利技术的基本特征是认为隐含马尔科夫模型的參数存在冗余,通过线性映射,降低建模的自由度。在相同训练数据条件下,能更为稳健的估值,解决估值不准的问题。专利技术的具体步骤如下(I)训练阶段对于训练语音,作如下处理,(I. I)前端处理包括语音增强,用于抑制背景噪声,提升语音部分的可懂度,以便后端能够更好的区分语音信号和非语音信号。采用的方法是频域的维纳滤波;活动语音检测,用于区分语音信号和非语音信号,去除非语音信号,以便后端对语音信号的识别。采 用的方法有G723. 1、G723.9等。语音切分,对检测到的语音信号分帧处理,以便后续的特征提取。(I. 2)特征提取可以选择LPCC、MFCC或PLP及衍生特征。以MFCC为例,通常提取12维MFCC基本特征和能量构成13维特征。该13维特征是静态特征,为了反映语音的动态特性,利用静态特征构造差分特征。将I阶、2阶差分特征附到静态特征后,构成用于建模的39维MFCC特征。(I. 3)建立模型采用声韵母模型。将声韵母作为基本単元的好处是可以将事先训练好的基元单元按照声韵母拼接得到整体模型,使构建的非特定人孤立词识别系统通过修改词表,就能直接用于识别。在对声韵母建模时,根据是否考虑上下文信息,分为单音子模型、双因子模型和三音子模型。単音子模型不考虑上下文信息,双音子模型考虑前向信息,三音子模型考虑前后项信息。这三者中,以单音子模型和三音子模型较为常见,三音子模型的性能一般优于单音子模型的性能。对单音子建模时,将训练语音的特征按照声韵母状态分开,并采用LBG算法,得到状态输出模型。状态输出模型是高斯混合模型集(Gaussian Mixture Models,GMM)。对三音子模型建模时,要考虑上下文信息标注,并根据标注信息构建决策树,并根据决策树构建三音子模型。根据决策树,利用LBG算法,得到状态输出模型。状态输出模型是共享的高斯混合模型集。为了便于说明问题,假设频谱特征Ot是D维,其中下标t代表时间索引。在利用HMM对基本声学单元建模时,有S个状态,对于每个状态的GMM,有M个混合模型。以状态s (I ^ s ^ S)的GMM为例,其表达式如下 MV^fitI~(c*i! Σ/^c,.) (I) L=I其中,入s = {ω >3, μ i>s, Σ ijS, i = 1,2, .“,Μ}代表状态s的高斯混合模型,s,和Σ “分别是权重,均值和协方差,ガ(0|/^ユ)的定义如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于子空间的非特定人孤立词建模方法,其特征在于,将子空间技术融入隐含马尔科夫模型框架,从而降低建模的自由度,在有限数据量的情况下,能够提高所估计模型的准确度,提升系统的识别性能。2.根据权利要求I所述的,用于非特定人孤立词识别的子空间建模方法,其特征在于所述方法适用于不同声学基元,包括音节、半音节和声韵母。3.根据权利要求I所述的,用于非特定人孤立词识别的予空间建模方法,其特征在于所建立的模型既可适用于单因子模型,也可以适用于双因子、三音子模型。4.根据权利要求I所述的,用于孤立词识别的子空间建模方法是与语种无关的。5.一种基于子空间的孤立词识别装置,其特征在于,该装置分为5个模块...

【专利技术属性】
技术研发人员:何亮巴福生
申请(专利权)人:北京安慧音通科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1