语音识别方法和装置制造方法及图纸

技术编号:3047699 阅读:173 留言:0更新日期:2012-04-11 18:40
一种语音识别方法,它包括以下步骤: 将一个未知发音的一部分与基准模型比较以产生一个相似性测量值; 将未知发音的其它部分与基准模型反复比较,以相对于由存储数据限定的基准发音的一组许可序列中的每一个产生累计相似性测量值,其中包括先前通过将所说发音的一个或多个前部与对应于各个许可序列中的一个或多个先前发音的一个基准模型或多个模型比较得到的测量值的贡献; 按照每个许可序列的加权因子将所说累计测量值进行加权处理,其中所说加权处理是利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行的,所说的许可序列从该部分序列开始,这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】
本申请所说的语音识别应用于下述场合,为了确定输入语音信号中哪一个词汇(或者,更一般地说,就是发音)最明显地相似,并按照与该词汇相关的一个先验概率获得有关信息而进行语音识别处理。这种场合的一个实例是在我们申请的国际专利申请No.95/02524中所述的自动电话簿查询系统。在该系统中,(i)使用者说出一个城镇的名称;(ii)一个语音识别装置按照存储的城镇数据确定与所说的城镇名称最符合的几个城镇,并产生表示符合接近程度的“评分”或概率;(iii)对于所确定的城镇列出所有街道名称;(iv)使用者说出街道的名称;(v)语音识别装置从街道列表中识别几个与所说的街道名称最符合的街道名称,并且也给出评分;(vi)对每个街道评分根据该街道所在城镇得到的评分进行加权处理,最相近的“街道”被认为是具有最佳加权评分的街道。先验概率并不必须从先前的语音识别过程中产生;例如在上述专利申请中所述的另一种电话簿查询系统利用识别调取统计信息地点的信号,按照该地区的一个查询者所查询的最符合的城镇对城镇名称识别的结果进行加权处理。这种方法具有可靠的优点,例如除非在街道名称识别步骤中次选城镇中的街道名称评分明显高于首选城镇,一般保持对次选城镇不进行街道选择的状态。但是这种方法的缺点是由于在进行街道名称识别步骤时识别装置仅仅产生有限数目的候选街道名称,很可能这个短的街道名称列表只包含位于具有较低评分的城镇中的街道名称,即,位于具有较高评分的城镇中的具有较低评分的街道名称在能够进行加权处理之前已经被识别装置“删除”。美国专利US-4783803中介绍了一种语音识别装置,在该装置中,先验概率与先前已经识别过的一个或多个模式的给定语境有关。表示某一单词出现在另一单词前后的概率的语言评分与从包含这些单词的一个序列中得到的评分相结合。根据本专利技术提供了一种语音识别的方法,它包括以下步骤将一个未知发音的各部分与基准模型反复比较,以相对于由存储数据构成的若干许可的基准发音序列中的每一个,产生对于相似性的累计测量值,其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个在先发音的一个或多个基准模型比较得到的测量值的贡献,对于累计测量值指出的相似性在由预定的删除准则限定的程度内小于对于其它此类序列的测量值的序列不再进行反复比较,并按照加权因子对每个许可序列的累计测量值进行加权处理,其中加权处理是利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行的,所说的许可序列从该部分序列开始,这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。可取的是,对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较。这种删除可以根据所产生的、仍需反复比较的测量值的数目进行,以便保持这个数目恒定。根据本专利技术的另一方面,提供了一种语音识别装置,它包括存储装置,用于存储与表示发音的基准模型有关的数据和构成基准发音的许可序列的数据;比较装置,用于将一个未知发音的各部分与基准模型反复比较,以相对于由存储数据构成的若干许可的基准发音序列中的每一个,产生对于相似性的累计测量值,其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个在先发音的一个或多个基准模型比较得到的测量值的贡献;和可用于按照加权因子对每个许可序列的累计测量值进行加权处理的装置,其中加权处理装置可以利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行加权处理,所说的许可序列从该部分序列开始,这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。根据本专利技术的再一个方面,提供了一种借助于构成与声音对应的基准模型的存储数据和构成这种模型的许可序列的存储数据的语音识别方法,每个序列对应于一个被识别的发音,该方法包括以下步骤将一个未知发音的各个部分与基准模型比较以更新表示该发音的前部与一个部分许可序列之间相似性的测量值,从而产生表示该发音的后部与后部许可序列之间相似性的经过更新的测量值;识别出那些对相似性的测量值小于限定程度的部分序列;抑制与从已识别的部分序列开始的序列或部分序列有关的测量值的再次产生,其特征在于通过将所说测量值与一个阈值比较进行识别,所说阈值根据所产生的、不予抑制的测量值的数目反复调整,从而保持所说数目恒定。根据本专利技术的又一方面,提供了一种方法,该方法为表示一组基准发音许可序列的一个语音识别网络的每个节点指定了一个加权因子,所说方法包括对于每个节点,将相对于每个许可序列的加权因子值结合起来,所说序列从包含所说节点的一个部分序列开始,而对该部分序列从其开始的一个发音或较短序列施加较小的加权因子。加权因子可以在对数域中产生,给定加权因子的对数指定到与所说许可序列对应的网络的最终节点;然后给每个在先节点指定一个对数概率值,这个值是指定到其后的节点的这些值中的最大值;指定到在其之前的一个节点的值被从每个节点的值中减去。这些节点可以与表示基准发音的模型相关,这些相关模型的参数可以加以调整以反映指定到每个节点的加权因子。本专利技术特别适用于具有树状结构的识别网络,该网络除了第一个节点之外至少有一个节点包含一个以上的分支。现在通过实例,参照附图介绍本专利技术的一些实施例,在这些附图中附图说明图1为根据本专利技术的一个实施例构成的一种装置的方框图;图2表示隐马尔可夫模型的一个示例性网络;图3表示图1中所示标识存储器的内容;图4表示图1中所示装置实施加权的过程;图5表示图1中所示节点存储器的内容;图6为表示图1中装置操作过程的流程图7表示图1中所示词汇存储器的内容;和图8表示对图4所示实施加权过程的一种改进。语音识别方法基本分为两种,即并行处理方法和树形处理方法,按照前一种方法,将每个发音(例如一个单词)相继地与参考模板或模型进行比较以识别出最相近的发音中的一个或多个,而按照后一种方法,将发音的一部分(例如一个音素)与参考模板或模型(这里所用“模型”一词的含义为其通常含义)进行比较以识别这个部分;然后对下一个部分进行类似的处理。现在描述采用树形结构的一个实施例。图1中所示的语音识别装置1具有一个用于输入语音信号的输入装置1,所说语音信号由一个模数转换器2转换为数字信号,然后将经过数字化的信号传输到一个特征抽取器3,由特征抽取器3计算宽度为例如10毫秒的连续帧信号的每一帧的一组参数或“特征量”。可以选择通常所用的任何特征量,例如Mel刻度倒谱系数或线性预测系数。每一帧信号中特征量值可能的组合数量是非常大的,为了将其后的处理工作量减少到可以控制的数量,通常需要应用矢量量化方法,就是,使这一组特征量与有限数量m个标准特征量组合(v1,v2…vm)中的一个相匹配;这是利用一个向量量化器4实现的,以生成一个数字或“观测值”Oj(相对于第j帧)。接着将该值传输到一个分类器5,概括地说,该分类器5使该观测值序列[Oj]与存储在一个模型存储器6中的一组模型相匹配。每个模型对应于一个不同的子字例如一个音素。该分类器包括一个由存储在一个程序存储器52中的程序控制的中央处理器51,一个节点存储器53和一个标识存储器54。该分类器应用隐马尔可夫模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,它包括以下步骤将一个未知发音的一部分与基准模型比较以产生一个相似性测量值;将未知发音的其它部分与基准模型反复比较,以相对于由存储数据限定的基准发音的一组许可序列中的每一个产生累计相似性测量值,其中包括先前通过将所说发音的一个或多个前部与对应于各个许可序列中的一个或多个先前发音的一个基准模型或多个模型比较得到的测量值的贡献;按照每个许可序列的加权因子将所说累计测量值进行加权处理,其中所说加权处理是利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行的,所说的许可序列从该部分序列开始,这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。2.如权利要求1所述的一种方法,还包括以下步骤对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较。3.如权利要求2所述的一种方法,其特征在于所说删除准则根据所产生的、仍需反复比较的测量值的数目反复调整,以便保持这个数目恒定。4.语音识别装置,它包括存储装置,用于存储与表示发音的基准模型有关的数据和构成基准发音的许可序列的数据;比较装置,用于将一个未知发音的各部分与基准模型反复比较,以相对于由存储数据构成的若干许可的基准发音序列中的每一个,产生关于相似性的累计测量值,其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个先前发音的一个或多个基准模型比较得到的测量值的贡献;和可用于按照加权因子对每个许可序列的累计测量值进行加权处理的装置,其中加权处理装置可以利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行加权处理,所说的许可序列从该部分序列开始,这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。5.如权利要求4所述的装置,它还包括对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较的装置。6.如权利要求5所述的装置,其特征在于所说删除准则根据所产生的、仍需反复...

【专利技术属性】
技术研发人员:F·J·斯卡希尔A·D·西蒙S·J·怀塔克尔
申请(专利权)人:英国电讯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1