当前位置: 首页 > 专利查询>索尼公司专利>正文

语音识别装置和语音识别方法制造方法及图纸

技术编号:3046888 阅读:152 留言:0更新日期:2012-04-11 18:40
一种语音识别装置,其能够对多个用户作高精确度的语音识别。根据用存储单元(13)中存储的一个或多个变换函数变换输入声音的变换结果,模型自适应单元(12)检测最佳地使输入声音适应声学模型的变换函数,并将输入声音分配给最佳变换函数。此外,自适应单元(12)通过使用分配给变换函数的所有输入声音,更新:为其分配了新输入声音的变换函数。选择单元(14)在存储单元(13)中存储的一个或多个变换函数中选择用来变换输入声音的变换函数,而变换单元(5)通过使用所选择的变换函数变换输入声音。匹配单元(6)在用变换函数变换的输入声音和声学模型之间执行匹配。本发明专利技术适用于用来识别声音的装置。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种。本专利技术特别涉及这样一种,其中,在由多个用户或在多种环境中使用该装置时,不需要用户了解对模型的适应,就可以以很高的精确度识别语音。
技术介绍
一般说来,语音识别装置通过下述处理(语音识别处理)来识别输入语音。也就是说,语音识别装置对输入语音做声学分析,由此提取指示输入语音的特征的数量的预定维数的特征向量。用来分析语音的方法有傅立叶变换等。然后,用声学模型对特征向量做匹配处理。获取词语串(多个词语),其对应于与该特征向量序列匹配的声学模型序列,作为识别语音的结果。在使用,例如,连续隐藏马尔可夫模型(HMM(Hidden Markov Model))方法的匹配处理中,声学模型是HMM,其使用诸如至少一个由特征向量空间定义的高斯概率分布的概率(密度)函数。在匹配处理中,通过使用高斯概率分布形成声学模型,从作为语音识别结果的多个候选者(下文中,适当地称其为理论(theory))的该声学模型序列中,计算观测该特征向量序列的似然性(分数),基于分数从多个理论中确定最终语音识别结果。换句话说,选择所估计的特征向量序列的分数为最高的理论作为多个理论中最匹配输入语音的声学模型,并输出对应于形成该理论的声学模型序列作为识别语音的结果。近年来,提出了各种语音识别装置,其分为三类对特定讲话者的语音识别装置、对非特定讲话者的语音识别装置、模型自适应语音识别装置。对特定讲话者的语音识别装置使用通过使用特定讲话者的语音而得到的声学模型,所以以很高的精确度(低错误率)获得识别特定讲话者的语音的结果。然而,在对特定讲话者的语音识别装置中,识别该特定讲话者之外的讲话者的语音的精确度一般会很糟。对非特定讲话者的语音识别装置使用通过大量任意讲话者的语音得到的声学模型。所以以相对较高的精确度获得识别任意讲话者的语音的结果。然而,在对非特定讲话者的语音识别装置中,挑选特定的讲话者,然后识别被挑选的讲话者的精确度并不比对特定讲话者的语音识别装置识别语音的精确度高。模型自适应语音识别装置首先具有与对非特定讲话者的语音识别装置相同的性能。然而,在由特定的用户(讲话者)使用该装置期间,基于特定用户的语音执行对声学模型的适应,从而改善了识别该特定用户的语音的精确度。也就是说,模型自适应语音识别装置首先通过使用与对非特定讲话者的语音识别装置相似的声学模型来识别语音。在这种情况下,在用户的输入语音和声学模型之间分析失配,并获得将声学模型变换成模型匹配(适用于)该输入语音的变换矩阵。然后,通过使用这样通过使用变换矩阵变换声学模型而获得的声学模型,即,在对声学模型适应之后的声学模型,来识别语音。在用户正式使用模型自适应语音识别装置之前,作为训练,该装置执行上述对声学模型的适应。因此,声学模型被变换成与用户的语音匹配,从而改善了识别该特定讲话者的语音的精确度。如上所述,在模型自适应语音识别装置中,将声学模型变换成适于识别输入语音的声学模型。从而,专用于该用户(讲话者),从而该语音识别装置匹配该用户。或者,专用于语音识别装置所处环境,从而语音识别装置变得适应于该环境。换句话说,语音识别装置所处的环境包括用户的语音被输入到语音识别装置之前那里的噪音和信道的失真。当在预定环境中使用自适应语音识别装置时,将声学模型变换成适应在该预定环境下的声音。从这一点来说,模型自适应语音识别装置适应其环境。信道的失真取决于用于将语音变换成电信号的麦克风的特征、限制传输语音识别装置的输入语音的电话线的带宽等的传输线的特征。在使用HMM作为声学模型时,通过使用上述变换矩阵,转换用于定义高斯概率分布的平均向量,形成HMM,从而执行对声学模型的适应。通过使用变换矩阵线性变换特征向量,并通过使用变换后的特征向量和声学模型计算分数,获得对于对用于变换声学模型的、模型的适应的有利的等价方式。所以,对模型的适应不只意味着使用变换矩阵来变换声学模型,而且还有对特征向量的变换。即,从用户的语音获得的特征向量可以被处理为适应声学模型,或者声学模型可以被处理为适应从用户的语音获得的特征向量。执行对模型的适应,以便改善(增加)从声学模型中观测任何目标语音的特征向量的似然性,即通过形成HMM作为对应于目标语音(指示目标语音的音素等的声学模型)声学模型的高斯概率分布而计算出的特征向量的分数。所以,考虑对变换特征向量的模型的适应,理想地,用变换矩阵变换特征向量,因此将特征向量映射到用于定义形成声学模型的高斯概率分布的平均向量。然后,在对声学模型的适应中,为了使从对应于目标语音的声学模型计算的目标语音的特征向量的分数大于从另一个声学模型计算的分数,获取变换矩阵以执行线性变换,其中目标语音的特征向量匹配用于定义形成对应于目标语音的声学模型的高斯概率分布的平均向量。可以周期性地或非周期性地计算变换矩阵。在识别语音时,通过使用由变换矩阵获得的特征向量(或声学模型)执行匹配处理。通过使用从特定讲话者的多个语音获得的多个特征向量序列,获得用于适应该特定讲话者的声学模型的变换矩阵。所以,用于使多个特征向量中的每一个与对应的平均向量匹配的矩阵必须作为变换矩阵获得。尽管有多种获取用于将多个特征向量映射到对应的平均向量的变换矩阵的方法,这里使用了一种使用线性回归(最小二乘法)的方法。通过线性回归获得的变换矩阵使从特定讲话者的语音中获得的要被映射到对应于平均向量的特征向量与该平均向量的统计误差(这里是方差的总和)最小化。所以,一般说来,变换矩阵不使任何从特定讲话者获得的想要的特征向量能够完全地匹配对应的平均向量。对模型适应的方法不但包括上述方法,而且包括其它有细节变化的方法。根据任何方法,与上述方法相似,基于声学模型,对目标语音的特征向量,或对应于该目标语音的声学模型做基本的变换,从而使用于观测该特征向量的似然性变得最大。在模型自适应语音识别装置中,进行多次对一个特定用户的语音模型的适应、或者对特定环境下的模型的适应。从而可以改善识别特定用户的语音或特定环境下的语音的精确度,另一方面,却降低了识别其它用户的语音或在其它环境下的语音的精确度。作为结果,模型自适应语音识别装置与对特定讲话者的语音识别装置具有相同的性能。在模型自适应语音识别装置,如上所述地,适应特定的用户或特定的环境之后,由其它用户或在其它环境下使用该语音识别装置,从而使得该语音识别装置能够适应其它用户或其它环境。然而,就在由其它用户或在其它环境下开始使用该装置之后,语音识别装置的声学模型仍然适应第一个用户或第一个环境。因此,识别语音的精确度极度降低,直到声学模型变得适应其它用户或其它环境。进一步讲,在一些情况下,适应第一个用户或用户环境的声学模型不能够完全地适应其它用户或其它环境。适应第一个用户或第一个环境的声学模型必须返回(重置)到初始声学模型,然后必须适应其它用户或其它环境。在上述情况下,存在下述语音识别装置。即,准备多个声学模型集合,设置根据用户改变的声学模型的集合适应用户。语音识别装置通过使用适应用户的声学模型来识别多个用户的语音,所以与对特定讲话者的语音识别装置相似,获得对所有用户识别语音的精确度。然而,上述语音识别装置通过使用适应语音的用户的声学模型来识别语音,所以必须向其通知哪个用户在讲话。因此,麻烦在于开始使用该装置之前,用本文档来自技高网...

【技术保护点】
一种用于识别语音的语音识别装置,包括: 变换函数存储装置,用于存储至少一个变换函数,所述变换函数用于当变换输入语音和声学模型中的一个,并使已变换的一个适应另一个时,变换输入语音和用来识别该语音的声学模型中的一个; 分配装置,用于基于用所述变换函数存储装置中存储的至少一个变换函数变换输入语音和声学模型中的一个的变换结果,从所述变换函数存储装置中存储的至少一个变换函数中,检测最佳变换函数,并将输入语音分配给最佳变换函数,所述最佳变换函数使输入语音和对应该输入语音的声学模型中的一个适应另一个; 语音存储装置,用于存储:已为其分配了变换函数的输入语音; 变换函数更新装置,用于通过使用分配给变换函数的所有输入语音,从所述变换函数存储装置中存储的至少一个变换函数中,更新:已由所述分配装置为其分配了新输入语音的变换函数; 变换函数选择装置,用于从所述变换函数存储装置中存储的至少一个变换函数中,选择用于变换输入语音和声学模型中的一个的变换函数; 变换装置,用于用所述变换函数选择装置选择的变换函数变换输入语音和声学模型中的一个;以及 匹配装置,用于执行匹配处理,其中使变换函数变换的输入语音和声学模型中的一个与另一个匹配,和用于基于匹配处理结果,输出识别输入语音的结果。...

【技术特征摘要】
JP 2001-6-8 174633/011.一种用于识别语音的语音识别装置,包括变换函数存储装置,用于存储至少一个变换函数,所述变换函数用于当变换输入语音和声学模型中的一个,并使已变换的一个适应另一个时,变换输入语音和用来识别该语音的声学模型中的一个;分配装置,用于基于用所述变换函数存储装置中存储的至少一个变换函数变换输入语音和声学模型中的一个的变换结果,从所述变换函数存储装置中存储的至少一个变换函数中,检测最佳变换函数,并将输入语音分配给最佳变换函数,所述最佳变换函数使输入语音和对应该输入语音的声学模型中的一个适应另一个;语音存储装置,用于存储已为其分配了变换函数的输入语音;变换函数更新装置,用于通过使用分配给变换函数的所有输入语音,从所述变换函数存储装置中存储的至少一个变换函数中,更新已由所述分配装置为其分配了新输入语音的变换函数;变换函数选择装置,用于从所述变换函数存储装置中存储的至少一个变换函数中,选择用于变换输入语音和声学模型中的一个的变换函数;变换装置,用于用所述变换函数选择装置选择的变换函数变换输入语音和声学模型中的一个;以及匹配装置,用于执行匹配处理,其中使变换函数变换的输入语音和声学模型中的一个与另一个匹配,和用于基于匹配处理结果,输出识别输入语音的结果。2.如权利要求1所述的语音识别装置,其中声学模型是隐藏马尔可夫模型(HMM(Hidden Markov Model)),并且所述匹配装置基于HMM方法执行匹配处理。3.如权利要求2所述的语音识别装置,其中HMM具有高斯分布,所述高斯分布用于基于HMM计算观测预定语音的特征向量序列的概率,并且所述分配装置用所述变换函数存储装置中存储的至少一个变换函数,变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个,并且检测使特征向量序列与平均向量序列中的已变换的一个与另一个之间的误差最小化的变换函数,作为最佳变换函数。4.如权利要求2所述的语音识别装置,其中所述变换函数更新装置更新变换函数,以便,在为分配给变换函数的至少一个语音的输入语音,用变换函数变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个时,使特征向量序列与平均向量序列中的已变换的一个和另一个之间的静态误差最小化。5.如权利要求4所述的语音识别装置,其中所述变换函数更新装置通过最小二乘法获得变换函数,以便,在为分配给变换函数的至少一个语音的输入语音,用变换函数变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个时,使特征向量序列与平均向量序列中的已变换的一个和另一个之间的统计误差最小化。6.如权利要求1所述的语音识别装置,其中所述变换函数更新装置更新已为其分配了新输入语音的变换函数,然后从所述变换函数存储装置中存储的至少一个变换函数中,检测最佳变换函数,并且再次将输入语音分配给最佳变换函数,其中,所述最佳变换函数对于所述语音存储装置中存储的所有输入语音,使输入语音和对应于该输入语音的声学模型中的一个适应另一个。7.如权利要求6所述的语音识别装置,其中所述变换函数更新装置还从所述变换函数存储装置中存储的至少一个变换函数中,更新其中输入语音的分配已改变的变换函数,其后,重复下述操作从所述变换函数存储装置中存储的至少一个变换函数中,检测最佳变换函数,并且再次将输入语音分配给最佳变换函数,其中,所述最佳变换函数对于所述语音存储装置中存储的所有输入语音,使输入语音和对应于该输入语音的声学模型中的一个适应另一个,直到输入语音对变换函数的分配不再改变。8.如权利要求1所述的语音识别装置,还包括变换函数产生装置,用于基于所述变换函数存储装置中存储的变换函数产生新变换函数。9.如权利要求8所述的语音识别装置,其中所述变换函数产生装置基于所述变换函数存储装置中存储的至少一个变换函数中满足预定产生条件的变换函数产生新变换函数。10.如权利要求9所述的语音识别装置,其中,所述变换函数产生装置,从所述变换函数存储装置中存储的至少一个变换函数中,将已为其分配了具有预定阈值的语音数目的输入语音的变换函数设置成满足预定产生条件的变换函数,并基于所设置的变换函数产生新变换函数。11.如权利要求8所述的语音识别装置,其中所述变换函数产生装置通过使用所述变换函数存储装置中存储的一个变换函数作为参考,获得第一和第二两个变换函数,从第一和第二变换函数中,检测最佳变换函数,并且将输入语音分配给最佳变换函数,其中,所述最佳变换函数对于分配给一个作为参考的变换函数的所有输入语音,使输入语音和对应于该输入语音的声学模型中的一个适应另一个,通过使用分配给第一和第二变换函数的输入语音,更新第一和第二变换函数,并且在所述变换函数存储装置中存储更新后的第一和第二变换函数,取代作为参考的那一个变换函数。12.如权利要求11所述的语音识别装置,其中所述变换函数产生装置在所述变换函数存储装置中存储更新后的第一和第二变换函数,然后从所述变换函数存储装置中存储的至少一个变换函数中,检测最佳变换函数,并且再次将输入语音分配给最佳变换函数,其中,所述最佳变换函数对于所述语音存储装置中存储的所有输入语音,将适应输入语音和对应于该输入语音的声学模型中的一个。13.如权利要求12所述的语音识别装置,其中在再次将输入语音分配给变换函数之后,所述变换函数产生装置重复下述操作在所述变换函数存储装置中存储的至...

【专利技术属性】
技术研发人员:赫尔穆特卢克
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1