语音识别装置和方法制造方法及图纸

技术编号:3044723 阅读:150 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了语音识别装置、方法和记录有语音识别软件程序的记录介质。当识别候选项的相似度大于第二阈值时,语音验证单元输出识别候选项作为识别结果,并且当识别候选项的相似度小于第二阈值时,如果该识别候选项的相似度大于第一阈值并且同时该识别候选项的相似度大于抛弃候选项的相似度,则语音验证单元输出识别候选项作为识别结果。应该注意,第一阈值是用于抛弃输入语音的量度。第二阈值大于第一阈值并且用作用于输出作为识别结果的识别候选项的量度。

【技术实现步骤摘要】

本专利技术涉及语音识别装置、语音识别方法、以及其上记录有语音识 别软件程序的记录介质,更具体地讲,涉及一种语音识别装置、语音识 别方法、以及其上记录有语音识别软件程序的记录介质,其由于除了设 置有用于存储识别词汇单词的识别单词字典之外还设置有用于存储可抛 弃词汇单词的可抛弃单词字典,从而能够抛弃背景噪声、背景语音或识 别词汇单词以外的单词的发声,并且仅当对识别词汇单词发声时才输出 识别结果。
技术介绍
在过去已知这样的语音识别装置,该语音识别装置将语音识别引擎 用作从用户接收输入以识别用户发声(语音)并且接受它们作为对系统 的输入的装置。例如,这种语音识别装置已经被实际用于包括语音门户、 汽车导航系统等的信息提供系统。此外,这种语音识别装置受制于如下问题例如,根据设置有这种 语音识别装置的信息提供系统的使用环境,背景噪声、背景语音等可能 被误识别为识别词汇单词。此外,存在如下问题当用户对识别词汇单 词以外的单词发声时,这些单词可能被误识别为识别词汇单词。为了消除这些问题,提出了一种语音识别装置,该语音识别装置除 了用于存储识别词汇单词的识别单词字典以外,还设置有用于存储可抛 弃词汇单词的可抛弃单词字典。具体地讲,该语音识别装置除了计算输 入语音与识别词汇单词之间的相似度以外,还计算输入语音与可抛弃词 汇单词之间的相似度。作为计算相似度的结果,当识别词汇单词的相似 度高于可抛弃词汇单词的相似度时,将识别词汇单词输出作为识别结果。 另一方面,当识别词汇单词的相似度小于可抛弃词汇单词的相似度时,抛弃输入语音。因此,在可抛弃单词字典中存储背景噪声、背景语音或 识别单词字典以外的单词作为可抛弃词汇单词,使得可以防止将背景噪 声、背景语音或识别词汇单词以外的单词误识别为识别词汇单词(例如,参见日本专利申请公报第2002-372988号或第H10-49190号)。然而,如果这种语音识别装置中的识别词汇单词和可抛弃词汇单词 例如相同或相似,则尽管用户对识别词汇单词发声,但在可抛弃词汇单 词的相似度高于识别词汇单词的相似度时,用户发声会被错误地抛弃。因此,在日本专利申请公报第2002-372988号中公开的语音识别装 置中,可抛弃单词去除单元从存储有可抛弃单词全集的可抛弃单词数据 库中去除与存储在识别单词字典中的识别词汇单词相同或相似的可抛弃 词汇单词。可抛弃单词去除单元通过将剩余在可抛弃单词数据库中的残 余可抛弃词汇单词存储在可抛弃单词字典中,来产生可抛弃单词字典。 这使得在用户对识别词汇单词发声时可以防止将用户发声错误地抛弃。然而,在上述日本专利申请公报第2002-372988号中公开的结构中 存在下面的问题。也就是说,在日本专利申请公报第2002-372988号的语音识别装置 中,每当存储在识别单词字典中的识别词汇单词发生改变时,必须通过 从可抛弃单词数据库中去除与识别词汇单词相同或相似的可抛弃词汇单 词并将剩余在可抛弃单词数据库中的残余可抛弃词汇单词存储在可抛弃 单词字典中,来对可抛弃单词字典进行更新。因此,当存储在识别单词 字典中的识别词汇单词发生改变时,需要耗时的人工操作来更新可抛弃 单词字典。
技术实现思路
考虑到上述问题作出本专利技术,并且本专利技术的目的是提供一种语音识 别装置、语音识别方法、以及其上记录有语音识别软件程序的记录介质, 其能够当用户对识别词汇单词发声时防止用户发声被错误地抛弃,并且 同时,即使当存储在识别单词字典中的识别词汇单词发生改变时也能够 减小更新可抛弃单词字典所需的耗时的人工操作。为了实现上述目的,本专利技术的语音识别装置包括语音输入单元, 其将输入语音转换成发声语音数据;语音分析单元,其将所述发声语音数据转换成特征量;识别单词字典,其存储多个识别词汇单词;可抛弃 单词字典,其存储多个可抛弃词汇单词;语音验证单元,其利用通过所 述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储 在所述识别单词字典中的所述多个识别词汇单词之间的相似度,利用通 过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与 存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之间的相似 度,并且,作为计算这些相似度的结果,从所述识别词汇单词中提取具 有最高相似度的识别词汇单词作为识别候选项,并且从所述可抛弃词汇 单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;第一阈 值存储单元,其存储用作抛弃所述输入语音的量度的第一阈值;以及第 二阈值存储单元,其存储第二阈值,所述第二阈值大于所述第一阈值并 且用作输出作为识别结果的所述识别候选项的量度。如果所述识别候选 项的相似度大于所述第二阈值,则所述语音验证单元输出所述识别候选 项作为识别结果,并且如果所述识别候选项的相似度小于所述第二阈值, 则当所述识别候选项的相似度大于所述第一阈值并且同时所述识别候选 项的相似度高于所述抛弃候选项的相似度时,所述语音验证单元输出所 述识别候选项作为识别结果。此外,传统的语音识别装置受制于如下问题当存储在可抛弃单词 字典中的可抛弃词汇单词与存储在识别单词字典中的识别词汇单词相同 或相似时,在用户发声与抛弃候选项的相似度高于用户发声与识别候选 项的相似度的情况下,尽管用户是对识别候选项进行发声,但是用户发 声也会被错误地抛弃。因此,在传统语音识别装置中,每当存储在识别 单词字典中的识别词汇单词发生改变时,必须通过从可抛弃单词数据库 中去除与识别词汇单词相同或相似的可抛弃词汇单词并将剩余在可抛弃 单词数据库中的残余可抛弃词汇单词存储在可抛弃单词字典中,来对可 抛弃单词字典进行更新。因此,传统的语音识别装置受制于如下问题当存储在识别单词字典中的识别词汇单词发生改变时,需要耗时的人工操作来更新可抛弃单词字典。另一方面,在本专利技术的语音识别装置中,当识别候选项的相似度大 于第二阈值时,语音验证单元输出识别候选项作为识别结果,而不管抛 弃候选项的相似度。应该注意,第二阈值是用于输出作为识别结果的识 别候选项的量度。因此,只要识别候选项的相似度大于第二阈值,则即 使在由于识别候选项和抛弃候选项相同或相似而使抛弃候选项的相似度 变得高于识别候选项的相似度的情况下,也可输出识别候选项作为识别 结果。因此,在本专利技术的语音识别装置中,例如,当用户对识别候选项 发声时,即使在可抛弃单词字典中存储有与识别词汇单词相同或相似的 可抛弃词汇单词,用户发声也不会被错误地抛弃。因此,不需要按照用 于上述传统语音识别装置的方式(即,每当存储在识别单词字典中的识 别词汇单词发生改变时,从可抛弃单词数据库中去除与识别词汇单词相 同或相似的可抛弃词汇单词并将剩余在可抛弃单词数据库中的残余可抛 弃词汇单词存储在可抛弃单词字典中)来更新可抛弃单词字典。结果, 即使当存储在识别单词字典中的识别词汇单词发生改变时也能够减小更 新可抛弃单词字典所需的耗时的人工操作,同时与用户对识别词汇单词 发声这一事实无关,能够防止用户发声被错误地抛弃。在上述的本专利技术的语音识别装置的优选实施方式中,如果识别候选 项的相似度大于第一阈值,则当识别候选项的相似度小于第二阈值并且 同时识别候选项的相似度小于抛弃候选项的相似度时,语音验证单元抛 弃输入语音,并且如果识别候选项的相似度小本文档来自技高网
...

【技术保护点】
一种语音识别装置,该语音识别装置包括:语音输入单元,其将输入语音转换成发声语音数据;语音分析单元,其将所述发声语音数据转换成特征量;识别单词字典,其存储多个识别词汇单词;可抛弃单词字典,其存储多个可抛弃词汇单词;语音验证单元,其利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述识别单词字典中的所述多个识别词汇单词之间的相似度,利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之间的相似度,并且,作为计算这些相似度的结果,从所述识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候选项,并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;第一阈值存储单元,其存储用作抛弃所述输入语音的量度的第一阈值;以及第二阈值存储单元,其存储第二阈值,所述第二阈值大于所述第一阈值并且用作输出作为识别结果的所述识别候选项的量度,其中,如果所述识别候选项的相似度大于所述第二阈值,则所述语音验证单元输出所述识别候选项作为识别结果,并且如果所述识别候选项的相似度小于所述第二阈值,则当所述识别候选项的相似度大于所述第一阈值并且同时所述识别候选项的相似度高于所述抛弃候选项的相似度时,所述语音验证单元输出所述识别候选项作为识别结果。...

【技术特征摘要】
JP 2006-11-20 2006-3131981、一种语音识别装置,该语音识别装置包括语音输入单元,其将输入语音转换成发声语音数据;语音分析单元,其将所述发声语音数据转换成特征量;识别单词字典,其存储多个识别词汇单词;可抛弃单词字典,其存储多个可抛弃词汇单词;语音验证单元,其利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述识别单词字典中的所述多个识别词汇单词之间的相似度,利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之间的相似度,并且,作为计算这些相似度的结果,从所述识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候选项,并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;第一阈值存储单元,其存储用作抛弃所述输入语音的量度的第一阈值;以及第二阈值存储单元,其存储第二阈值,所述第二阈值大于所述第一阈值并且用作输出作为识别结果的所述识别候选项的量度,其中,如果所述识别候选项的相似度大于所述第二阈值,则所述语音验证单元输出所述识别候选项作为识别结果,并且如果所述识别候选项的相似度小于所述第二阈值,则当所述识别候选项的相似度大于所述第一阈值并且同时所述识别候选项的相似度高于所述抛弃候选项的相似度时,所述语音验证单元输出所述识别候选项作为识别结果。2、 如权利要求1所述的语音识别装置,其中,如果所述识别候选项的相似度大于所述第一阈值,则当所述 识别候选项的相似度小于所述第二阈值并且同时所述识别候选项的相似 度小于所述抛弃候选项的相似度时,所述语音验证单元抛弃所述输入语 音,并且如果所述识别候选项的相似度小于所述第一阈值,则所述语音验证 单元抛弃所述输入语音。3、 如权利要求1所述的语音识别装置,该语音识别装置还包括补偿 数据存储单元,所述补偿数据存储单元存储用于改变所述识别候选项的 相似度和所述抛弃候选项的相似度中的至少一个相似度的补偿数据,其中,所述语音验证单元基于所述补偿数据,改变所述识别候选项 的相似度和所述抛弃候选项的相似度中的至少一个相似度。4、 如权利要求1所述的语音识别装置,其中,所述第二阈值存储单元存储分别对应于各个所述识别词汇单词的多个第二阈值。5、 如权利要求1所述的语音识别装置,该语音识别装置还包括多个可抛弃单词字典,其分别包含不同数目的可抛弃词汇单词;以及选择单元,其基于存储在所述识别单词字典中的识别词汇单词的数 目,从所述多个可抛弃单词字典中选择要由所述语音验证单元进行相似 度计算的可抛弃单词字典。6、 一种语音识别方法,其中,设置有存储有多个识别词汇单词的识别单词字典和存储有多个可抛弃词汇单词的可抛弃单词字典的计算机执行如下步骤 语音输入步骤,将输入语音转...

【专利技术属性】
技术研发人员:原田将治
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利