语音识别装置和方法制造方法及图纸

技术编号:3044964 阅读:155 留言:0更新日期:2012-04-11 18:40
一种本发明专利技术的实施例包括:声音处理功能、语音区间检测功能、词典功能、对照功能、搜索对象选择功能、存储功能以及确定功能,并且包括以下处理:基于束搜索选择搜索范围,设置并存储基准帧,存储某一转移路径的输出概率,确定是否存储了某一路径的输出概率,从而通过以下操作减少了输出概率的计算次数:基于束搜索选择搜索范围,在从设置基准帧到更新基准帧的时间间隔中只计算一次某一转移路径的输出概率,存储所计算的值,并且当转移路径的输出概率存储在后续的帧中时,使用所存储的值作为输出概率的近似值。

【技术实现步骤摘要】

本专利技术涉及一种语音识别方法,其利用HMM(隐马尔可夫模型)对声音特征进行建模,并且将其与语音特征矢量序列进行对照。
技术介绍
作为一种现有技术中的语音识别方法,广泛地使用一种如Yukinori Takubo等人在2004年的文章“Science of languages 2”(Voice,Iwanami Shoten)(非专利文件1)中所描述的方法,其利用HMM对声音特征进行建模,并且将其与语音特征矢量序列进行比较,所述语音特征矢量序列表示具有特定时间宽度的每个帧的语音特征。在该语音识别方法中,通过待识别的多种类型中的每一类型的HMM对声音特征进行建模,并且将其与语音特征矢量序列进行对照以找到语音特征矢量序列的具有最高输出概率的HMM,并且将分配给该HMM的类型作为识别结果输出。 作为一种现有的有效地减少输出概率的计算次数的方法,存在一种基于束搜索(beam search)的方法(例如,Masaki Ida,SeiichiNakagawa(1996),“Comparison between a beam search method and A*searching method in voice recognition”,The institute of Electronics,Information and Communication Engineers,Technical Report of“Voice”SP96-12)(非专利文件2),以及一种基于基准帧的方法(例如,日本专利No.3251480)(专利文件1)。 然而,输出概率的计算次数不能仅仅通过简单地组合基于束搜索来减少输出概率的计算次数的方法以及基于基准帧来减少输出概率的计算次数的方法来有效地减少输出概率的计算次数。
技术实现思路
考虑到这一问题,本专利技术的一个目的是提供一种语音识别装置,其中,通过组合基于束搜索的方法以及基于基准帧的方法,能够有效地减少输出概率的计算次数,而不会对语音识别性能带来不利影响。 根据本专利技术的实施例,提供了一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率的计算结果;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率的计算结果;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;确定单元,用于确定在当前帧的第二搜索范围内的各个转移路径中的第一输出概率、或者与基准帧和当前帧之间存在的已经过的帧有关的第二输出概率是否与转移路径相结合;近似值设置单元,用于当存储了与基准帧和当前帧之间的已经过的帧有关的第一输出概率的计算结果或第二输出概率的计算结果时,将与基准帧和当前帧之间的已经经过的帧有关的第一输出概率的计算结果或第二输出概率的计算结果设置为转移路径的第二输出概率的近似值;第二输出概率计算单元,用于当未存储第一输出概率的计算结果以及从基准帧到当前帧之前紧挨着的帧的时间间隔中的第二输出概率的计算结果时,计算转移路径的当前帧或转移路径的基准帧中的语音特征矢量的第二输出概率;第二输出概率存储单元,用于与转移路径相结合地存储第二输出概率的计算结果;第二输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有第二输出概率的计算结果;前向概率计算单元,用于根据预先计算的前一帧的前向概率、当前帧的所有近似值以及所有第二输出概率来计算当前帧的前向概率;以及语音识别单元,用于计算各个HMM的前向概率直到最后一帧,然后提供分配给对于最后一帧提供最大前向概率的HMM的类型作为语音识别的结果。 根据本专利技术的实施例,通过同时使用基于束搜索的方法和基于基准帧的方法,可以在不对语音识别性能产生不利影响的情况下,有效地减少输出概率的计算次数。 附图说明 图1是优选用于现有技术的语音识别装置1的框图; 图2说明HMM的例子1; 图3说明HMM的例子2; 图4是语音识别装置1的流程图; 图5是语音识别装置1的流程图; 图6是说明在语音识别装置1中的前向概率计算的示意图; 图7是优选用于现有技术的语音识别装置2的框图; 图8是在语音识别装置2中的前向概率计算的示意图; 图9是优选用于现有技术的语音识别装置3的框图; 图10是说明在语音识别装置3中的前向概率计算的示意图; 图11是说明前向概率计算的示意图,用于说明现有技术中的问题; 图12是说明前向概率计算的示意图,用于说明现有技术中的问题; 图13是说明前向概率计算的示意图,用于说明根据本专利技术的示例的解决方法; 图14是根据本专利技术第一实施例的语音识别装置的框图; 图15是第一实施例的流程图; 图16是第一实施例的流程图; 图17是根据本专利技术的实施例的HMM的示例; 图18是HMM的示例; 图19是根据本专利技术第二实施例的语音识别装置的框图; 图20是第二实施例的流程图; 图21是第二实施例的流程图; 图22是第二实施例的流程图; 图23是根据本专利技术第三实施例的语音识别装置的框图; 图24是第三实施例的流程图;以及 图25是第三实施例的流程图。 具体实施例方式 在描述本专利技术的实施例之前,将描述理解本专利技术的实施例所需的现有技术。 现有技术 参考图1到图13,将描述现有技术。 (1)语音识别装置的结构 图1是显示现有技术中的语音识别装置的结构的示例的框图。 图1中的语音识别装置包括声音处理单元001、语音区间检测单元002、词典单元003以及对照单元004。 (1-1)声音处理单元001 声音处理单元001根据输入语音信号为具有特定时间宽度的每个帧生成语音特征矢量的时间序列X=(x(1)、x(2)、...x(T))。符号x(t)表示帧t中的语音特征矢量,其中,1=<t=<T,t=1对应于由语音区间检测单元002检测到的语音的开始,随后描述,并且t=T对应于语音的结束。语音特征矢量x(t)是具有比一维更高的要素的矢量,并且表示帧t中的语音的特征。术语“帧t”意味着编号为“t”的帧。 (1-2)语音区间检测单元002 语音区间检测单元002根据输入语音信号检测语音区间(语音的开始和结束)。 (1-3)词典单元003 词典单元003存储多个分配给不同种类的HMM。通过以下方式定义HMM一个或多个状态Si(i=1、2、...、NS),一组起始状态SS以及一组最终状态SF,从某一状态Sj本文档来自技高网
...

【技术保护点】
一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括:声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;第二输出概率计算单元,用于当未存储第一输出概率和从基准帧到当前帧之前紧挨着的帧的时间间隔中的输出概率时,计算转移路径的当前帧或转移路径的基准帧中的语音特征矢量的第二输出概率;确定单元,用于确定在当前帧的第二搜索范围内的各个转移路径中的第一输出概率、或者与基准帧和当前帧之间存在的已经过的帧有关的第二输出概率是否与转移路径相结合;近似值设置单元,用于当存储了与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率时,将与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率设置为转移路径的第二输出概率的近似值;第二输出概率存储单元,用于与转移路径相结合地存储第二输出概率;第二输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有第二输出概率;前向概率计算单元,用于根据预先计算的前一帧的前向概率、当前帧的所有近似值以及所有第二输出概率来计算当前帧的前向概率;以及语音识别单元,用于计算各个HMM的前向概率直到最后一帧,然后提供分配给对于最后一帧提供最大前向概率的HMM的类型作为语音识别的结果。...

【技术特征摘要】
JP 2006-7-4 185002/20061.一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;第二输出概率计算单元,用于当未存储第一输出概率和从基准帧到当前帧之前紧挨着的帧的时间间隔中的输出概率时,计算转移路径的当前帧或转移路径的基准帧中的语音特征矢量的第二输出概率;确定单元,用于确定在当前帧的第二搜索范围内的各个转移路径中的第一输出概率、或者与基准帧和当前帧之间存在的已经过的帧有关的第二输出概率是否与转移路径相结合;近似值设置单元,用于当存储了与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率时,将与基准帧和当前帧之间的已经过的帧有关的第一输出概率或第二输出概率设置为转移路径的第二输出概率的近似值;第二输出概率存储单元,用于与转移路径相结合地存储第二输出概率;第二输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有第二输出概率;前向概率计算单元,用于根据预先计算的前一帧的前向概率、当前帧的所有近似值以及所有第二输出概率来计算当前帧的前向概率;以及语音识别单元,用于计算各个HMM的前向概率直到最后一帧,然后提供分配给对于最后一帧提供最大前向概率的HMM的类型作为语音识别的结果。2.根据权利要求1所述的装置,其中,第一输出概率和第二输出概率中的概率密度函数是污染正态分布,其中,所述HMM具有一种结构,在该结构中,由多个概率密度函数共同使用任意的正态分布,其中,当计算各个转移路径中的第一输出概率时,所述第一输出概率计算单元为构成概率密度函数的各个正态分布计算语音特征矢量的输出概率,并且与对应的正态分布相结合地存储各个正态分布的计算结果,其中,所述第一输出概率删除单元删除所有第一输出概率并且删除所有与正态分布相结合而存储的语音特征矢量的输出概率;其中,当计算第二输出概率时,所述第二输出概率计算单元(1)当存储了与正态分布相结合的计算结果时,提供所存储的计算结果作为正态分布的输出概率的近似值,以及(2)当未存储与正态分布相结合的计算结果时,进一步为正态分布计算语音特征矢量的输出概率,并且重新与正态分布相结合地存储计算结果,为构成概率密度函数的各个正态分布考虑语音特征矢量的输出概率。3.根据权利要求1所述的装置,其中,所述基准帧存储单...

【专利技术属性】
技术研发人员:酒井优田中信一
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利