语音识别装置及方法制造方法及图纸

技术编号:3048205 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及语音识别装置及方法。在该装置中,相连字识别单元基于声学模型和语言模型将语音识别为词素串。句子获取单元从正确句子存储单元中获取与所述语音相关的范句。基于匹配程度,句子对应进行单元将所识别出的词素串中所包含的第一词素与所获得的范句中所包含的第二词素进行对应。差异探查单元探查一个或多个与相对应的所述第二词素不匹配的所述第一词素,将其作为差异部分。原因信息获取单元从原因信息存储单元中获取输出信息,该输出信息对应着每个所述差异所符合的状态。输出单元输出所获得的输出信息。

【技术实现步骤摘要】

本专利技术涉及到一种装置和方法,用来识别语音,并在语音被误识别时, 确定与用户说出所述语音或说出输入句子的方式相关的问题。
技术介绍
近年来,用户能够利用语音来输入句子的语音识别系统已经具有了实 际用途,并开始作为实际系统而用在各种领域中。然而,迄今为止,还没 有一个系统得到用户的支持并具有非常好的销售量。原因之一在于,语音 识别系统有时会对输入语音进行误识别。尽管由于技术的进步,识别性能 在逐年提高,但仍然没有一种语音识别系统,其性能高到足以对所有用户 的各种说话方式进行正确的识别。为了处理这种情形,提出了各种方法来提高语音识别系统的性能水平。例如,JP-A 2003-280683 (KOKAI)提出了一种技术,根据每个输入句子 的所属领域,改变语音识别处理中要处理的识别词汇,使得根据每个输入 句子为合适的词汇和合适的同音异义词赋予较高的优先级,从而提高识别 性能。另夕卜,在目前可用的语音识别系统中,有时通过改善使用方法可以避 免误识别。例如, 一般的说,当用户向语音识别系统输入语音发声时,希 望用户用恒定的节奏流畅地、慢慢地、仔细地、明白地说话。另外, 对于要输入语音识别系统中的句子,希望句子中的许多单词和表达法在 语法上是正确的并且是常用的,,。掌握了这种使用方法的用户与没有掌握 这种使用方法的用户,其正确识别的百分比大大地不同。此外,由于不同用户具有不同的语音特征,所以,什么类型的语音会5导致什么类型的误识别会根据用户的不同而变化4艮大。另外,根据语音识 别系统所使用的数据库中所存储的数据的倾向的不同,误识别的倾向也会 变化很大。因此,没有一种使用方法能够适用于所有的用户,并能完全避 免误识别。另外,在语音识别处理期间,将用户所发出的语音(它是一个模拟信 号)输入到语音识别系统中。因此,即使同一用户在使用语音识别系统, 输入到系统的语音也会根据时间、地点和环境的不同而变化。因此,误识 别的倾向也会变化。最后,只有当用户从经验中明白了机器的倾向和特征 时,才能学会有效地使用语音识别系统。例如,用户需要通过试错来学习 有关如何说话以4更被正确地识别、麦克风到用户嘴部的最佳距离是多少、 以及什么词汇和表达法更可能获得希望的结果等的信息。然而,像JP-A 2003-280683 (KOKAI)之类所描述的那些常规方法把 注意力集中在主要通过改善语音识别系统内所进行的处理来实现高精度语 音识别处理。因此,即使系统内进行的处理得到改善,但语音识别处理的 精度仍然有可能因系统外部所进行的处理(诸如用户的不适当的使用方法) 而降低。
技术实现思路
根据本专利技术的一个方面, 一种语音识别装置包括范句存储单元,该 单元存储有范句;信息存储单元,该单元存储有若干状态和若干条输出信 息,它们彼此对应,所述每个状态基于语音输入和某个所述范句之间的差 异部分和差异内,前被确定,而每条所述输出信息涉及所&目应差异的 产生原因;输入单元,该单元接收语音的输入;第一识别单元,该单元基 于用来确定音素的声学特性的声学才莫型和用来确定词素之间的连接关系的 语言模型将所迷输入的语音识别为词素串;句子获取单元,该单元从所述范句存储单元中获取一个与所述输入语音相关的范句;句子对应进行单元, 该单元基于所识别出的词素串中所包含的每个第一词素与所获取的范句中 所包含的某个第二词素的匹配程度,将每个第一词素与至少一个第二词素进行对应;差异探查单元,该单元探查一个或多个与相应的所述第二词素 不匹配的第一词素,将其作为所述差异部分;信息获取单元,该单元从所 述信息存储单元中获取与每个探查出的差异部分的状态相对应的 一条输出 信息;以及输出单元,该单元输出所述获得的各条输出信息。根据本专利技术的另一方面, 一种语音识别方法包括接收语音的输入; 基于用来确定音素的声学特性的声学模型和用来确定词素之间的连接关系 的语言模型将所述输入的语音识别为词素串;从存储有范句的范句存储单 元中获取一个与所述输入的语音相关的范句;基于所识别出的词素串中所 包含的每个第一词素与所获取的范句中所包含的某个第二词素的匹配程度,将每个所述笫一词素与至少一个所述第二词素进行对应;探查一个或 多个与相应的 一个所述第二词素不匹配的所述第 一词素,将其作为所述差 异部分;从信息存储单元中获取与每个探查出的差异部分的状态相对应的 一条输出信息,其中所述信息存储单元中存储有若干状态和输出信息,它 们彼此进行了对应,每个所述状态基于差异部分和差异内M前被确定, 而每条所述输出信息涉及差异的产生原因;以及该方法还包括输出所述获 得的输出信息。附图说明图1是根据本专利技术的第一实施例的语音识别装置的方框图2显示了正确句子存储单元中所存储的正确句子的数据结构的例子;图3显示了原因信息存储单元中所存储的原因信息的数据结构的例子;图4显示了相连字识别单元所产生的词素串的数据结构的例子; 图5是4艮据第一实施例所述的语音识别处理的全部过程的流程图; 图6是根据第一实施例所述的差异探查处理的全部过程的流程图; 图7显示了由句子对应进行单元进行了对应的词素的例子; 图8示出了显示屏的例子,在该显示屏上显示了若干条建议;7图9是根据本专利技术的第二实施例所述的语音识别装置的方框图10显示了样本句子存储单元中所存储的样本句子的数据结构的例子;图11是根据第二实施例所述的语音识别处理的全部过程的流程图12是根据第二实施例所述的差异探查处理的全部过程的流程图13显示了由句子对应进行单元进行了对应的词素的例子;图14示出了显示屏的例子,在显示屏上显示了一条建议;图15是根据本专利技术的第三实施例所述的语音识别装置的方框图16显示了已经产生的单音节串的数据结构的例子;图17是^f艮据第三实施例所述的语音识别处理的全部过程的流程图18是根据笫三实施例所述的差异探查处理的全部过程的流程图19显示了由句子对应进行单元进行了对应的词素的例子;图20显示了由音节对应进行单元所进行的对应处理的结果的例子;图21显示了对应处理的各个结果被结合起来的例子;图22显示了显示屏的例子,在该显示屏上显示了若干条建议;图23是根据本专利技术的第四实施例所述的语音识别装置的方框图24显示了声学信息的数据结构的例子;图25显示了原因信息存储单元中所存储的原因信息的数据结构的例子;图26是根据第四实施例所述的语音识别处理的全部过程的流程图; 图27显示了样本句子存储单元中所存储的样本句子的数据结构的例子;图28显示了相连字识别单元所产生的词素串的数据结构的例子;图29显示了由句子对应进行单元进行了对应的词素的例子;图30显示了由声学对应进行单元所进行的对应处理的结果的例子;图31显示了对应处理的各结果被结合起来的例子;图32显示了显示屏的例子,在显示屏上显示了若干条建议;以及图33显示了根据所述第一到第四实施例所述的语音识别装置的硬件配置。具体实施例方式下面将参考附图详细说明根据本专利技术所述的装置和方法的示范性实施例。根据本专利技术的第一实施例所述的语音识别装置将一个正确的句子(它 是提前存储的一个范句)与用户说该正确的句子时所输入的语音的语音识 别处理结果进行比较,探查一个或多个差异部分,确定所述差异的成因(诸 如不恰当的发声、用户的特点、或输入句子的本文档来自技高网
...

【技术保护点】
一种语音识别装置,包括: 范句存储单元,用于存储范句; 信息存储单元,用于存储彼此进行了对应的若干状态和若干条输出信息,每个所述状态基于语音输入和任何所述范句之间的差异部分和差异内容提前被确定,而每条所述输出信息涉及相应差异的产 生原因; 输入单元,该单元接收语音的输入; 第一识别单元,该第一识别单元基于用来确定音素的声学特性的声学模型和用来确定各词素之间的连接关系的语言模型将所输入的语音识别为词素串; 句子获取单元,该单元从所述范句存储单元中获取 一个与所输入的语音相关的范句; 句子对应进行单元,该单元基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的任何第二词素的匹配程度将所述每个第一词素与至少一个所述第二词素进行对应; 差异探查单元,该单元探查与相应的 一个所述第二词素不匹配的一个或多个所述第一词素,将其作为所述差异部分; 信息获取单元,该单元从所述信息存储单元中获取与每个探查出的所述差异部分的状态相对应的一条输出信息;以及 输出单元,该单元输出所获取的输出信息。

【技术特征摘要】
JP 2007-11-26 304171/20071. 一种语音识别装置,包括范句存储单元,用于存储范句;信息存储单元,用于存储彼此进行了对应的若干状态和若干条输出信息,每个所述状态基于语音输入和任何所述范句之间的差异部分和差异内容提前被确定,而每条所述输出信息涉及相应差异的产生原因;输入单元,该单元接收语音的输入;第一识别单元,该第一识别单元基于用来确定音素的声学特性的声学模型和用来确定各词素之间的连接关系的语言模型将所输入的语音识别为词素串;句子获取单元,该单元从所述范句存储单元中获取一个与所输入的语音相关的范句;句子对应进行单元,该单元基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的任何第二词素的匹配程度将所述每个第一词素与至少一个所述第二词素进行对应;差异探查单元,该单元探查与相应的一个所述第二词素不匹配的一个或多个所述第一词素,将其作为所述差异部分;信息获取单元,该单元从所述信息存储单元中获取与每个探查出的所述差异部分的状态相对应的一条输出信息;以及输出单元,该单元输出所获取的输出信息。2. 根据权利要求l所述的装置,还包括第二识别单元,该单元基于所述声学模型以及定义与单音节相对应的 词汇的词典信息,将所述输入的语音识别为单音节串;以及音节对应进行单元,该单元将所识别出的单音节串中所包含的每个单 音节与在所述输入的语音中有匹配的发声片段的所述第 一词素中所包含的 任何音节进^f亍对应,其中,所述差异探查单元还探查一个或多个所含音节与相应的单音节不匹配的所述第一词素,将其作为所述差异部分。3. 根据权利要求l所述的装置,其中,所述句子获取单元从所述范句 存储单元中获取一个指定的范句,作为与所述输入的语音相关的一个范句。4. 根据权利要求l所述的装置,其中,所述句子获取单元从所述范句 存储单元中获取与所述输入的语音类似或与所述输入的语音完全匹配的一 个范句。5. 根据权利要求4所述的装置,其中,所述差异探查单元计算每个所述第一词素中与相应的一个所述第二词素中的字符不匹配的字符的数目, 计算每个所述第一词素中所述字符数目与字符总数的比值,并探查一个或 多个所述比值小于预定阈值的所述第一词素,将其作为差异部分。6. 根据权利要求l所述的装置,还包括声学信息探查单元,该单元探查若干条声学信息,每条声学信息都显 示了所述输入的语...

【专利技术属性】
技术研发人员:永江尚义
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1