【技术实现步骤摘要】
本专利技术涉及一种语音识别方法,其利用HMM(隐马尔可夫模型)对声音特征进行建模,并且将其与语音特征矢量序列进行对照。
技术介绍
作为一种现有技术中的语音识别方法,广泛地使用一种如Yukinori Takubo等人在2004年的文章“Science of languages 2”(Voice,Iwanami Shoten)(非专利文件1)中所描述的方法,其利用HMM对声音特征进行建模,并且将其与语音特征矢量序列进行比较,所述语音特征矢量序列表示具有特定时间宽度的每个帧的语音特征。在该语音识别方法中,通过待识别的多种类型中的每一类型的HMM对声音特征进行建模,并且将其与语音特征矢量序列进行对照以找到语音特征矢量序列的具有最高输出概率的HMM,并且将分配给该HMM的类型作为识别结果输出。 作为一种现有的有效地减少输出概率的计算次数的方法,存在一种基于束搜索(beam search)的方法(例如,Masaki Ida,SeiichiNakagawa(1996),“Comparison between a beam search method and A*searching method in voice recognition”,The institute of Electronics,Information and Communication Engineers,Technical Report of“Voice”SP96-12)(非专利文件2),以及一种基于基准帧的方法(例如,日本专利No.3251480)(专利文件1)。 然而,输出概率的计算次 ...
【技术保护点】
一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括:声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;第二输出概率计算单元,用于当未存储第一输出概率和从基准帧到当前帧之前紧挨着的帧的时间间隔中的输出概率时,计算转移路径的当前帧或转移路径的基准帧中的语音特征 ...
【技术特征摘要】
JP 2006-7-4 185002/20061.一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;第二输出概率计算单元,用于当未存储第一输出概率和从基准帧到当前帧之前紧挨着的帧的时间间隔中的输出概率时,计算转移路径的当前帧或转移路径的基准帧中的语音特征矢量的第二输出概率;确定单元,用于确定在当前帧的第二搜索范围内的各个转移路径中的第一输出概率、或者与基准帧和当前帧之间存在的已经过的帧有关的第二输出概率是否与转移路径相结合;近似值设置单元,用于当存储了与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率时,将与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率设置为转移路径的第二输出概率的近似值;第二输出概率存储单元,用于与转移路径相结合地存储第二输出概率;第二输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有第二输出概率;前向概率计算单元,用于根据预先计算的前一帧的前向概率、当前帧的所有近似值以及所有第二输出概率来计算当前帧的前向概率;以及语音识别单元,用于计算各个HMM的前向概率直到最后一帧,然后提供分配给对于最后一帧提供最大前向概率的HMM的类型作为语音识别的结果。2.根据权利要求1所述的装置,其中,第一输出概率和第二输出概率中的概率密度函数是污染正态分布,其中,所述HMM具有一种结构,在该结构中,由多个概率密度函数共同使用任意的正态分布,其中,当计算各个转移路径中的第一输出概率时,所述第一输出概率计算单元为构成概率密度函数的各个正态分布计算语音特征矢量的输出概率,并且与对应的正态分布相结合地存储各个正态分布的计算结果,其中,所述第一输出概率删除单元删除所有第一输出概率并且删除所有与正态分布相结合而存储的语音特征矢量的输出概率;其中,当计算第二输出概率时,所述第二输出概率计算单元(1)当存储了与正态分布相结合的计算结果时,提供所存储的计算结果作为正态分布的输出概率的近似值,以及(2)当未存储与正态分布相结合的计算结果时,进一步为正态分布计算语音特征矢量的输出概率,并且重新与正态分布相结合地存储计算结果,为构成概率密度函数的各个正态分布考虑语音特征矢量的输出概率。3.根据权利要求1所述的装置,其中,所述基准帧存储单...
【专利技术属性】
技术研发人员:酒井优,田中信一,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。