当前位置: 首页 > 专利查询>索尼公司专利>正文

语音识别方法和装置制造方法及图纸

技术编号:3047186 阅读:171 留言:0更新日期:2012-04-11 18:40
一种提高语音识别准确度并且避免增加资源的语音识别装置。根据声学分值和语言学分值选择可能为语音识别结果的词,同时还根据不是声学分值的测度,如“音素数目少”、“特定语音部分”、“包含在语音识别过去结果中”和“语言学分值高于预设值”,选择词。并且对如此选择的词进行匹配处理。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音识别方法和装置以及记录介质,特别涉及一种语音识别方法和装置以及记录介质,其中,甚至在语音包含具有不稳定声学特征值的词时,语音识别也可以用更少量的资源获得更高的准确度。
技术介绍
附图说明图1示出典型的传统语音识别装置。由用户发出的语音输入到麦克风1,麦克风1然后将所输入语音转换为作为电信号的语音信号。这些语音信号输入到A/D(analog/digital,模拟/数字)转换器2,A/D转换器2然后对作为模拟信号从麦克风1输出的语音信号进行采样和量化,以将这些信号转换为作为数字信号的语音数据。这些语音数据发送到特征值提取单元3。特征值提取单元3对来自A/D转换器2的语音数据以合适的所选帧进行逐帧的声学处理,以提取特征值,如MFCC(Mel Frequency CepstrumCoeffient,唛频率倒谱系数),并将所提取的值发送到匹配单元4。另外,特征值提取单元3能够提取其他特征值,如频谱、线性预测系数或线谱对。使用来自特征值提取单元3的特征值,匹配单元4在必要时参考声学模型数据库5、词典数据库6和文法数据库7,根据例如连续分布(HIGHMOLECULAR MATERIALS,高分子材料)对输入到麦克风1的语音(输入语音)进行语音识别。也就是,声学模型数据库5存储表示声学特性,如正在识别语音的语言中的每个音素或音节,的声学模型。由于在此语音识别基于连续分布高分子材料方法,因此所使用的声学模型是高分子材料(隐马尔科夫模型)。词典数据库6记录表明正在识别的每个词(词汇)的发音信息(音素信息)的词典。文法数据库7存储表明登记在词典数据库6的词典中的词如何相互连接的文法规则集(语言模型)。例如,基于上下文无关文法(Context Free Grammar,CFG)或统计词连接概率(N-文法)可以用作该文法规则集。匹配单元4参考词典数据库6的词典,连接存储在声学模型数据库5中的声学模型,以构造词的声学模型(词模型)。匹配单元4还参考存储在文法数据库7中的文法规则,连接几个词模型,并且使用如此连接的词模型,根据连续分布高分子材料方法,基于特征值,识别输入到麦克风1的语音。也就是,匹配单元4检测具有由特征值提取单元3输出的时间序列的特征值观察的最大分值(可能性)的词模型序列,并且作为语音识别结果输出与词模型序列对应的词序列。具体地说,匹配单元4为与所连接词模型对应的词序列累计各个特征值的出现概率。这些累计值就是分值,并且分值最大的词序列作为词识别结果进行输出。分值一般通过全面评估由存储在声学模型数据库5中的声学模型给予的声学分值和由存储在文法数据库7中的文法规则集给予的语言模型进行计算。也就是,例如,根据由特征值提取单元3输出的特征值序列的观察概率(出现概率),从形成词模型的声学模型,逐词地,应用高分子材料方法,计算声学模型。如果应用两词文法,语言分值根据当前考虑词和其直接前面词的连接(耦合)概率进行查找。语言识别结果根据通过全面评估每个词的声学分值和语言分值获得的最终分值进行最终确定。具体地说,如果,对于由N个词构成的词序列中的第k词Wk,词Wk的声学分值表示为A(Wk)并且语言分值表示为L(Wk),那么该词序列的最终值S根据方程(1)进行计算S=O′(A(Wk)+Ck×(Wk))------(1)]]>其中 表示当k从1改变到N时取和,并且Ck表示应用到词Wk的语言分值L(Wk)的加权。匹配单元4实现查找最大化方程1所示的最终分值的N和查找词序列W1,W2,…,WN的匹配处理。这些词序列W1,W2,…,WN作为词识别结果进行输出。上述处理的结果是,如果用户念出,例如“ニユ一ヨ一クに行きたいです”(“我想去纽约”,念作“new york ni ikitai desu”),图1的语音识别设备给予各个词,如“ニユ一ヨ一ク”(“纽约”,念作“new york”)、“に”(“到”,念作“ni”)、“行きたい”(“想去”,念作“ikitai”)和“です”(念作“desu”)声学和语言分值。如果通过全面评估获得的最终分值最大,词序列“ニユ一ヨ一ク”、“に”、“行きたい”、“です”作为语音识别结果进行输出。需要注意的是,如果在上述情况下,五个词“ニユ一ヨ一ク”、“に”、“行きたい”和“です”登记在词典数据库6的词典中,可由这五个词形成的五词序列存在55种可能性。因此,在简单考虑的情况下,匹配单元4将不得不评估这55种词序列,以确定该词序列最匹配由用户作出的发音,即该词序列的最终分值最大。如果登记在词典中的词数增加,词序列的可能数目对应于所登记词的增加数目的数目,等于词数的词数次方,从而要评估的词序列数目过大。而且,由于包含在发音中的词数未知,因此不仅由五词构成的词序列,而且由一、二…词构成的词序列都需要进行评估。因此,要评估的词序列的数目进一步增加。因此,一个关键任务是,从计算量和要使用的存储器容量的观点,有效确定超大词序列中最可能是语音识别结果的一个。在用于改善计算量和存储器容量的效率的方法中,存在当在查找声学分值的过程中所发现的声学分值低于预设阀值时剪除分值计算的声学剪除方法,和根据语言分值剪除作为分值计算目标的词的语言学剪除方法。采用这种剪除方法,分值计算的目标根据预设判决标准,如给予每个词的,在上述计算过程中的声学分值,或语言分值进行剪除,以减小计算量。然而,如果判决标准太严格,甚至语音识别的正确结果也被剪除而导致识别错误。因此,如果应用剪除方法,剪除需要以预设的裕量执行,从而防止剪除语音识别的正确结果。这样,要大幅减少计算量就很困难。如果,在查找声学分值中,发现要计算所有词的声学分值,处理量将增大。基于这种考虑,提出一种使用多个词共同的声学分值计算的特定部分的方法。已知有一种作为这种共有方法的方法,从首音素到最后一个共同音素使用词典中具有相同首音素的这些词共同的声学模型,并且从在最后一个共同音素之后的音素使用单个语音模型,以构造单一树结构网络,并使用该网络查找声学分值。具体地说,对于词“秋田”(“秋天田野”,念作“akita”)和“曙”(“黎明”,念作“akebono”),“秋田”的音素信息为[akita]并且“曙”的音素信息为[akebono],“秋田”的声学分值和“曙”可以从第一音素直到第二音素a,k进行共同计算。对于词“秋田”的剩余音素k、i、t和a和词“曙”的剩余音素e、b、o、n和o,声学分值进行独立计算。因此,采用这种方法,声学分值的处理量可以大量减少。采用这种方法,不可能确定正在从声学分值进行共同计算的共同词部分计算其声学模型的词。在上述词“秋田”和“曙”的示例中,如果为第一和第二音素a和k计算声学分值,就不可能识别正在计算其声学模型的词是“秋田”还是“曙”。在这种情况下,对于“秋田”,当开始第三音素的声学分值计算时,正在处理的词可以识别作“秋田”。类似地,对于“曙”,当开始第三音素的声学分值计算时,正在处理的词可以识别作“曙”。因此,如果共同使用一部分声学分值计算,每个词不能在计算词的声学分值的开始进行识别,因此不能考虑该词的语言分值。因此,在开始计算词的声学分值之前使用上述语言学剪除方法是困难的,并且将做不必要的计算本文档来自技高网...

【技术保护点】
一种语音识别装置,其中计算反映输入语音的语音识别结果的声学可能性的分值,并且根据该分值识别语音,包括: 提取装置,用于提取所述语音的特征值; 选择装置,用于根据使用所述特征值计算的第一测度,从一组词中选择一个或更多第一词进行语音识别处理,并且根据不同于所述第一测度的第二测度选择一个或更多第二词; 分值计算装置,用于计算由所述选择装置选择的所述第一和第二词的所述分值; 最终确定装置,用于根据所述分值最终确定一个词串作为所述语音的识别结果。

【技术特征摘要】
JP 2000-2-28 51466/001.一种语音识别装置,其中计算反映输入语音的语音识别结果的声学可能性的分值,并且根据该分值识别语音,包括提取装置,用于提取所述语音的特征值;选择装置,用于根据使用所述特征值计算的第一测度,从一组词中选择一个或更多第一词进行语音识别处理,并且根据不同于所述第一测度的第二测度选择一个或更多第二词;分值计算装置,用于计算由所述选择装置选择的所述第一和第二词的所述分值;最终确定装置,用于根据所述分值最终确定一个词串作为所述语音的识别结果。2.如权利要求1所述的语音识别装置,其中,所述选择装置,以音素数作为所述第二测度,选择音素数满足预设条件的词作为所述第二词。3.如权利要求1所述的语音识别装置,其中,所述选择装置,以语音部分作为所述第二测度,选择语音部分满足预设条件的词作为所述第二词。4.如权利要求1所述的语音识别装置,其中,所述选择装置,以语言学可能性作为所述第二测度,选择语言学可能性满足预设条件的词作为所述第二词。5.如权利要求1所述的语音识别装置,进一步包括存储装置,用于存储语音识别结果;其中,所述选择装置,以所述存储装置中的存储状态作为所述第二测度,选择包含于存储在所述存储装置中的语音识别结果中的词作为所述第二词。6.如权利要求5所述的...

【专利技术属性】
技术研发人员:浅野康治南野活树小川浩明赫尔穆特勒克
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利