语音识别装置与语音识别方法制造方法及图纸

技术编号:3046979 阅读:150 留言:0更新日期:2012-04-11 18:40
用性别特定的两种隐藏的马尔可夫模型来表示待识别的每一个单词,并且事先设定在性别特定的隐藏的马尔可夫模型之中的各输出概率函数以及各转移概率都被事先存储在ROM(6)之中。参照由特征值检测器(3)检出的各项特征参数,并参照隐藏的马尔可夫模型,语音识别器(4)确定一个特征参数序列的出现概率。在确定出现概率的过程中,语音识别器(4)向每一个单词给出性别特定的各隐藏的马尔可夫模型所共用的一种隐藏的马尔可夫模型的一个状态序列,将存储在ROM(6)之中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘,选出最大的乘积作为共用的隐藏的马尔可夫模型的每一种状态的概率,基于已选出的乘积来确定出现概率,并基于这样确定的出现概率来识别输入的语音。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及使用隐藏的马尔可夫模型(HMM)的。具体地说,即使语音特性随着讲者的年龄和性别发生改变,或者对单一词汇项存在不止一种发音方法(例如,以口语方式来表达时),本专利技术都能以高精度来识别包含在词汇表中的各个单词的发音,并降低对存储的需求。
技术介绍
一般地说,用于识别非特定用户所共用的固定单词的技术被称为与讲者无关的语音识别。在与讲者无关的语音识别中,关于非特定用户所共用的固定单词的各项特征参数的信息被积累在一个存储单元,例如一个ROM之中。用于将语音样本转换为特征参数序列的已知方法包括倒频谱分析以及线性预测分析。此外,使用各种隐藏的马尔可夫模型的各种方法通常被用来准备关于非特定用户所共用的固定单词的各项特征参数的信息(数据),并将该信息与由输入语音转换过来的特征参数序列进行比较。在《用于语音和声音信息的数字信号处理》(作者Shokodo有限公司的Kiyohiro Shikano,Tetsu Nakamura和Shiro Ise)一书中,详细描述了借助于隐藏的马尔可夫模型来进行与讲者无关的语音识别技术。例如,在日本语的情况下,在《用于语音和声音信息的数字信号处理》第二章中所描述的音素集被用来作为一个语音单元,并且使用一种隐藏的马尔可夫模型为每一个音素建模。图6表示音素集标记的列表。例如,可以使用各讲者共用的各音素标记的一个网络(固定单词标记的序列)来给单词“Hokkaido”建模。若提供了如图7(A)所示的固定单词标记序列以及如图7(B)所示的基于相应的隐藏的马尔可夫模型的音素模型数据,则专业人士使用在《用于语音和声音信息的数字信号处理》第四章中所描述的维特比算法,就能容易地构建一个与讲者无关的语音识别装置。在图7(B)中,a(I,J)表示从状态I转移到状态J的转移概率。例如,图中的a(1,1)表示从状态1到状态1的转移的转移概率。此外,b(I,x)表示当获得声学参数(特征参数)x时,在状态I中的一种输出概率。因此,图中的b(1,x)表示当获得声学参数x时,在状态1中的一种输出概率。此外,在图7(B)中的pI表示状态I的概率,并且根据下面的方程式(1)对它进行更新。pI=max(p(I-1)×a(I-1,I),pI×a(I,I))×b(I,X)…(1)顺便说一句,在方程式(1)右边的max( )意味着在max( )中的各乘积中选择最大的乘积。下文同此。其次,将参照图8,来说明使用上述的男子和女子共用的隐藏的马尔可夫模型来进行语音识别的整个流程。首先,在语音信号中检出(提取)各项特征参数。其次,参照已检出的各项特征参数,并参照事先确定的男女共用的隐藏的马尔可夫模型,使用方程式(1)来计算特征参数序列的各出现概率。然后,从已计算出来的各个概率中选出最高的概率,并且获得作为输入语音的识别结果的给出最高概率的音素标记序列。由于声道长度的不同,所以在成年男子和女子之间的声学条件通常是不同的。因此,在一种有时被用来提高语音识别率的(多模板)方法中,分别准备男性用声学模型以及女性用声学模型,如图9(A)所示,使用男子语音数据以及女子语音数据,针对男子和女子分别准备含有讲话时待识别的词汇的隐藏的马尔可夫模型状态序列,如图9(B)所示。在图9(B)中,a(I,J)表示一个女性用模型从状态I转移到状态J的转移概率,同时,A(I,J)表示一个男性用模型从状态I转移到状态J的转移概率。此外,b(I,x)表示当获得女性用模型的声学参数x时,在状态I中的一种输出概率,同时B(I,x)表示当获得男性用模型的声学参数x时,在状态I中的一种输出概率。此外,在图9(B)中的pI表示女性用模型的状态I的概率,并且根据下面的方程式(2)对它进行更新。pI=max(p(I-1)×a(I-1,I),pI×a(I,I))×b(I,X)…(2)此外,在图9(B)中的PI表示男性用模型的状态I的概率,并且根据下面的方程式(3)对它进行更新。PI=max(P(I-1)×A(I-1,I),PI×A(I,I))×B(I,X)…(3)其次,将参照图10,来说明使用上述的两种类型的隐藏的马尔可夫模型,即,针对男子和女子的隐藏的马尔可夫模型,来进行语音识别的整个流程。首先,在语音信号中检出(提取)各项特征参数。其次,参照已检出的各项特征参数,并参照事先确定的男性用隐藏的马尔可夫模型(单词)Ma1,Ma2,…,Man,以及事先确定的女性用隐藏的马尔可夫模型(单词)Mb1,Mb2,…,Mbn,使用方程式(2)和(3)来计算特征参数序列的各出现概率。然后,从已计算出来的各个概率中选出最高的概率,并且获得作为输入语音的识别结果的给出最高概率的音素标记序列。在这种情况下,与从男子语音数据以及女子语音数据中准备一种声学模型(隐藏的马尔可夫模型)时相比,语音识别率得以提高。但是,与使用男女共用模型时相比,用以组成词汇量的存储器容量翻了一番。此外,用以保存关于各种状态的概率的信息的存储容量也有所增加。如上所述,与从男子语音数据以及女子语音数据中准备一种声学模型时相比,使用多模板、性别特定声学模型来进行与讲者无关的语音识别提高了语音识别率,但是,引入多模板实际上使词汇翻了一番,由此导致所使用的存储容量的增加。最近,对适用于越来越宽的年龄组范围的语音识别应用程序的需求与日俱增,并且,不管是什么年龄组,都希望得到高的语音识别率。因此,可以想象,将来可能使用针对成年男子、成年女子、学龄儿童、老年男子和老年女子的各种声学模型。在这种情况下,词汇量实际上将扩大至5倍,使得对存储容量的需求进一步地增加。词汇量越大,对存储容量的需求将提高得更多。这将是一个高成本(生产成本)的缺点,例如,当把语音识别纳入到一部移动电话之中时,情况就是这样。因此,人们希望限制对存储容量的需求的增加,并降低生产成本,同时使用多种声学模型来提高语音识别率。顺便说一句,即使当使用男女共用的声学模型时,若某些单独的词汇项(单词)具有不同的口语表达方式,则它被当作两个词汇项来处理。例如,单词“Hokkaido”可能有两种发音“hotskaidou”和“hotskaidoo”。这可以使用维特比算法来解决,如图11所示。在图11(B)中,au(I,J)表示音素u从状态I转移到状态J的转移概率,同时,ao(I,J)表示音素o从状态I转移到状态J的转移概率。此外,bu(I,x)表示当获得音素u的声学参数x时,在状态I中的一种输出概率,同时,bo(I,x)表示当获得音素o的声学参数x时,在状态I中的一种输出概率。此外,在图11(B)中的uI表示音素u的状态I的概率,并且根据下面的方程式(4)对它进行更新。uI=max(u(I-1)×au(I-1,I),uI×au(I,I))×bu(I,X)…(4)此外,在图11(B)中的oI表示音素o的状态I的概率,并且根据下面的方程式(5)对它进行更新。oI=max(o(I-1)×ao(I-1,I),oI×ao(I,I))×bo(I,X)…(5)此外,如同在使用多模板、性别特定的声学模型时的情形那样,对存储容量的需求有所增加。因此,本专利技术的一个目标就是,提供一种语音识别装置和语音识别方法,在语音识别中,在不增加工作存储器的存储容量等的前提下,它能提高语音识别率的精度。专利技术内本文档来自技高网...

【技术保护点】
一种语音识别装置,使用隐藏的马尔可夫模型来识别非特定讲者的语音, 其特征在于,所述装置包括: 检测装置,用于检测输入语音的各项特征参数; 识别数据存储装置,用于事先存储各输出概率函数以及各转移概率,它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量,所述多种隐藏的马尔可夫模型表示多个预定的单词中的每一个;以及 识别装置,它参照由所述检测装置所检出的各项特征参数,并参照所述多种隐藏的马尔可夫模型,确定所述各项特征参数的序列的出现概率, 所述识别装置在确定所述出现概率的过程中,向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列,该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的,以及 所述识别装置将存储在所述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘,选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率,根据所选出的最大乘积来确定所述出现概率,然后根据这样确定的出现概率来识别输入的语音。

【技术特征摘要】
JP 2000-7-13 212115/001.一种语音识别装置,使用隐藏的马尔可夫模型来识别非特定讲者的语音,其特征在于,所述装置包括检测装置,用于检测输入语音的各项特征参数;识别数据存储装置,用于事先存储各输出概率函数以及各转移概率,它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量,所述多种隐藏的马尔可夫模型表示多个预定的单词中的每一个;以及识别装置,它参照由所述检测装置所检出的各项特征参数,并参照所述多种隐藏的马尔可夫模型,确定所述各项特征参数的序列的出现概率,所述识别装置在确定所述出现概率的过程中,向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列,该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的,以及所述识别装置将存储在所述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘,选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率,根据所选出的最大乘积来确定所述出现概率,然后根据这样确定的出现概率来识别输入的语音。2.根据权利要求1所述的语音识别装置,其特征在于,所述识别装置在所述多种类型的隐藏的马尔可夫模型中共享所述隐藏的马尔可夫模型的每一种状态的转移概率,以便确定所述出现概率。3.根据权利要求1或2所述的语音识别装置,其特征在于,所述多种预定类型的隐藏的马尔可夫模型包括下列各种模型中至少两种类型性别特定的各隐藏的马尔可夫模型,年龄特定的多种隐藏的马尔可夫模型,以及基于含有不同类型的噪声的的语音数据的多种隐藏的马尔可夫模型。4.一种语音识别装置,使用隐藏的马尔可夫模型来识别非特定讲者的语音,其特征在于,所述装置包括检测装置,用于检测输入语音的各项特征参数;识别数据存储装置,用于事先存储各输出概率函数以及各转移概率,它们使用在多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量,这些隐藏的马尔可夫模型中的每一个都表示多个预定单词中的每一个,以及使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量;以及识别装置,它参照由所述检测装置所检出的各项特征参数,并参照所述多种隐藏的马尔可夫模型,确定所述特征参数的序列的出现概率,在确定所述出现概率的过程中,所述识别装置在用于部分表达的所述多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的一个状态序列,以及所述识别装置将在所述用于部分表达的多个隐藏的马尔可夫模型中事先设定的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘,选择最大的...

【专利技术属性】
技术研发人员:宮崎敏幸石川洋儿
申请(专利权)人:旭化成株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1