语音识别装置和语音识别方法制造方法及图纸

技术编号：3046888 阅读：152 留言：0更新日期：2012-04-11 18:40

一种语音识别装置，其能够对多个用户作高精确度的语音识别。根据用存储单元（１３）中存储的一个或多个变换函数变换输入声音的变换结果，模型自适应单元（１２）检测最佳地使输入声音适应声学模型的变换函数，并将输入声音分配给最佳变换函数。此外，自适应单元（１２）通过使用分配给变换函数的所有输入声音，更新：为其分配了新输入声音的变换函数。选择单元（１４）在存储单元（１３）中存储的一个或多个变换函数中选择用来变换输入声音的变换函数，而变换单元（５）通过使用所选择的变换函数变换输入声音。匹配单元（６）在用变换函数变换的输入声音和声学模型之间执行匹配。本发明专利技术适用于用来识别声音的装置。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种。本专利技术特别涉及这样一种，其中，在由多个用户或在多种环境中使用该装置时，不需要用户了解对模型的适应，就可以以很高的精确度识别语音。
技术介绍
一般说来，语音识别装置通过下述处理(语音识别处理)来识别输入语音。也就是说，语音识别装置对输入语音做声学分析，由此提取指示输入语音的特征的数量的预定维数的特征向量。用来分析语音的方法有傅立叶变换等。然后，用声学模型对特征向量做匹配处理。获取词语串(多个词语)，其对应于与该特征向量序列匹配的声学模型序列，作为识别语音的结果。在使用，例如，连续隐藏马尔可夫模型(HMM(Hidden Markov Model))方法的匹配处理中，声学模型是HMM，其使用诸如至少一个由特征向量空间定义的高斯概率分布的概率(密度)函数。在匹配处理中，通过使用高斯概率分布形成声学模型，从作为语音识别结果的多个候选者(下文中，适当地称其为理论(theory))的该声学模型序列中，计算观测该特征向量序列的似然性(分数)，基于分数从多个理论中确定最终语音识别结果。换句话说，选择所估计的特征向量序列的分数为最高的理论作为多个理论中最匹配输入语音的声学模型，并输出对应于形成该理论的声学模型序列作为识别语音的结果。近年来，提出了各种语音识别装置，其分为三类对特定讲话者的语音识别装置、对非特定讲话者的语音识别装置、模型自适应语音识别装置。对特定讲话者的语音识别装置使用通过使用特定讲话者的语音而得到的声学模型，所以以很高的精确度(低错误率)获得识别特定讲话者的语音的结果。然而，在对特定讲话者的语音识别装置中，识别该特定讲话者之外的讲话...

【技术保护点】
一种用于识别语音的语音识别装置，包括：变换函数存储装置，用于存储至少一个变换函数，所述变换函数用于当变换输入语音和声学模型中的一个，并使已变换的一个适应另一个时，变换输入语音和用来识别该语音的声学模型中的一个；分配装置，用于基于用所述变换函数存储装置中存储的至少一个变换函数变换输入语音和声学模型中的一个的变换结果，从所述变换函数存储装置中存储的至少一个变换函数中，检测最佳变换函数，并将输入语音分配给最佳变换函数，所述最佳变换函数使输入语音和对应该输入语音的声学模型中的一个适应另一个；语音存储装置，用于存储：已为其分配了变换函数的输入语音；变换函数更新装置，用于通过使用分配给变换函数的所有输入语音，从所述变换函数存储装置中存储的至少一个变换函数中，更新：已由所述分配装置为其分配了新输入语音的变换函数；变换函数选择装置，用于从所述变换函数存储装置中存储的至少一个变换函数中，选择用于变换输入语音和声学模型中的一个的变换函数；变换装置，用于用所述变换函数选择装置选择的变换函数变换输入语音和声学模型中的一个；以及匹配装置，用于执行匹配处理，...

【技术特征摘要】
JP 2001-6-8 174633/011.一种用于识别语音的语音识别装置，包括变换函数存储装置，用于存储至少一个变换函数，所述变换函数用于当变换输入语音和声学模型中的一个，并使已变换的一个适应另一个时，变换输入语音和用来识别该语音的声学模型中的一个；分配装置，用于基于用所述变换函数存储装置中存储的至少一个变换函数变换输入语音和声学模型中的一个的变换结果，从所述变换函数存储装置中存储的至少一个变换函数中，检测最佳变换函数，并将输入语音分配给最佳变换函数，所述最佳变换函数使输入语音和对应该输入语音的声学模型中的一个适应另一个；语音存储装置，用于存储已为其分配了变换函数的输入语音；变换函数更新装置，用于通过使用分配给变换函数的所有输入语音，从所述变换函数存储装置中存储的至少一个变换函数中，更新已由所述分配装置为其分配了新输入语音的变换函数；变换函数选择装置，用于从所述变换函数存储装置中存储的至少一个变换函数中，选择用于变换输入语音和声学模型中的一个的变换函数；变换装置，用于用所述变换函数选择装置选择的变换函数变换输入语音和声学模型中的一个；以及匹配装置，用于执行匹配处理，其中使变换函数变换的输入语音和声学模型中的一个与另一个匹配，和用于基于匹配处理结果，输出识别输入语音的结果。2.如权利要求1所述的语音识别装置，其中声学模型是隐藏马尔可夫模型(HMM(Hidden Markov Model))，并且所述匹配装置基于HMM方法执行匹配处理。3.如权利要求2所述的语音识别装置，其中HMM具有高斯分布，所述高斯分布用于基于HMM计算观测预定语音的特征向量序列的概率，并且所述分配装置用所述变换函数存储装置中存储的至少一个变换函数，变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个，并且检测使特征向量序列与平均向量序列中的已变换的一个与另一个之间的误差最小化的变换函数，作为最佳变换函数。4.如权利要求2所述的语音识别装置，其中所述变换函数更新装置更新变换函数，以便，在为分配给变换函数的至少一个语音的输入语音，用变换函数变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个时，使特征向量序列与平均向量序列中的已变换的一个和另一个之间的静态误差最小化。5.如权利要求4所述的语音识别装置，其中所述变换函数更新装置通过最小二乘法获得变换函数，以便，在为分配给变换函数的至少一个语音的输入语音，用变换函数变换输入语音的特征向量序列和用于定义对应于该输入语音的HMM的高斯分布的平均向量序列中的一个时，使特征向量序列与平均向量序列中的已变换的一个和另一个之间的统计误差最小化。6.如权利要求1所述的语音识别装置，其中所述变换函数更新装置更新已为其分配了新输入语音的变换函数，然后从所述变换函数存储装置中存储的至少一个变换函数中，检测最佳变换函数，并且再次将输入语音分配给最佳变换函数，其中，所述最佳变换函数对于所述语音存储装置中存储的所有输入语音，使输入语音和对应于该输入语音的声学模型中的一个适应另一个。7.如权利要求6所述的语音识别装置，其中所述变换函数更新装置还从所述变换函数存储装置中存储的至少一个变换函数中，更新其中输入语音的分配已改变的变换函数，其后，重复下述操作从所述变换函数存储装置中存储的至少一个变换函数中，检测最佳变换函数，并且再次将输入语音分配给最佳变换函数，其中，所述最佳变换函数对于所述语音存储装置中存储的所有输入语音，使输入语音和对应于该输入语音的声学模型中的一个适应另一个，直到输入语音对变换函数的分配不再改变。8.如权利要求1所述的语音识别装置，还包括变换函数产生装置，用于基于所述变换函数存储装置中存储的变换函数产生新变换函数。9.如权利要求8所述的语音识别装置，其中所述变换函数产生装置基于所述变换函数存储装置中存储的至少一个变换函数中满足预定产生条件的变换函数产生新变换函数。10.如权利要求9所述的语音识别装置，其中，所述变换函数产生装置，从所述变换函数存储装置中存储的至少一个变换函数中，将已为其分配了具有预定阈值的语音数目的输入语音的变换函数设置成满足预定产生条件的变换函数，并基于所设置的变换函数产生新变换函数。11.如权利要求8所述的语音识别装置，其中所述变换函数产生装置通过使用所述变换函数存储装置中存储的一个变换函数作为参考，获得第一和第二两个变换函数，从第一和第二变换函数中，检测最佳变换函数，并且将输入语音分配给最佳变换函数，其中，所述最佳变换函数对于分配给一个作为参考的变换函数的所有输入语音，使输入语音和对应于该输入语音的声学模型中的一个适应另一个，通过使用分配给第一和第二变换函数的输入语音，更新第一和第二变换函数，并且在所述变换函数存储装置中存储更新后的第一和第二变换函数，取代作为参考的那一个变换函数。12.如权利要求11所述的语音识别装置，其中所述变换函数产生装置在所述变换函数存储装置中存储更新后的第一和第二变换函数，然后从所述变换函数存储装置中存储的至少一个变换函数中，检测最佳变换函数，并且再次将输入语音分配给最佳变换函数，其中，所述最佳变换函数对于所述语音存储装置中存储的所有输入语音，将适应输入语音和对应于该输入语音的声学模型中的一个。13.如权利要求12所述的语音识别装置，其中在再次将输入语音分配给变换函数之后，所述变换函数产生装置重复下述操作在所述变换函数存储装置中存储的至...

【专利技术属性】
技术研发人员：赫尔穆特卢克，
申请(专利权)人：索尼公司，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人