用于语音识别的方法技术

技术编号:4666430 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于对待识别的表达(A)进行语音识别的方法,所述表达(A)具有多个待识别的表达部分(A1-A5),其中对所选择的第一表达部分(A1)进行部分语音识别(S1)并且根据通过部分语音识别(S1)所识别出的针对第一表达部分(A1)的命中词选择来执行对表达(A)的第一(A1)和其它表达部分(A2-A5)的语音识别(S2)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种用于对具有多个表达部分的表达进行语音识别的方法。本专利技术此 外涉及一种适于执行相应方法的语音识别设备;以及一种计算机程序产品,该计算机程序 产品促使在受程序控制的语音识别设备上执行语音识别方法。
技术介绍
作为对人机接口的补充的有越来越广泛的应用领域。在移动 终端设备(例如移动电话)的情况下命令识别或者从地址薄中选择项现在是标准功能范 围。尤其是也在机动车中使用语音识别系统,以便例如得到用于导航装置的开始和目标设定。 常用的语音识别方法例如基于所谓的隐马尔可夫模型 (Hidden-Markov-Modellen),该隐马尔可夫模型虽然使得能够进行不依赖于讲话者的语音 识别,然而造成了高的计算花费。因为尤其是在机动车中经常使用只具有有限计算和存储 资源的所谓的嵌入式系统作为计算机,所以必须经常执行简化了的语音识别。尤其是对用 于待辨识的搜索项的搜索空间的限制一般导致对计算性能和存储容量的较低要求。但是, 相应的搜索空间限制以及因此对资源的节约经常伴随有不太可靠的语音识别和/或用户 的不太舒适的操作。 在DE 10207895A1中例如说明了一种,其中对于多部分表达 或命令的输入提出逐级的语音识别。在那里规定,例如在输入城市名称并且随后输入街道 名称的情况下,首先对具有所说出的街道名称的单个表达进行语音识别,该语音识别作为 命中列表(Trefferliste)在显示器上被显示给用户。然后,在用户确认之后,可以为另一 语音识别确定适合于该城市名称的第二词汇表,该第二词汇表比城市名称和街道名称的组 合造成更小的存储器需求。然而,不利的是,用户必须首先记录对于城市名称的识别结果, 并且必须手动地从命中列表中进行选择。 此外,特别期望的是,在唯一的对于用户来说可感觉到的步骤中借助于语音识别 来识别完整的地址输入并且向用户直接显示全部目标地址的选择,其中该地址输入例如包 括城市名称、街道名称以及名牌号码。通常,待识别的表达的相应延长由于有许多表达部分 (城市名称、街道名称、门牌号码)而伴随有对相应语音识别设备的存储性能和计算性能明 显更高的要求。所以,在过去,尽可能只通过语音识别来识别短的命令或者命令序列并且示 出给用户。
技术实现思路
因此,本专利技术的任务是,提供一种改进的。 该任务通过根据权利要求1的来解决。 相应地提供一种用于对具有多个待识别的表达部分的待识别的表达进行语音识 别的方法。在此,首先对所选择的第一表达部分执行部分语音识别,并且根据通过部分语音4识别所识别出的针对第一表达部分的命中词选择来执行对表达的第一和其它表达部分的语音识别。 虽然待识别的表达包括多个不同的表达部分,例如由城市名称加街道名称加门牌号码所组成的目标地址的说出,但是不必要的是,用户对确定的表达部分或者所识别出的表达部分进行确认。因为首先从总体表达中选择一个表达部分,所以可以根据上下文使用针对部分语音识别的、例如主要涉及城市名称的较小的词汇表。从第一部分语音识别的对于用户来说感觉不到的中间结果中得出相应的上下文。通过部分语音识别所识别出的命中词选择使得能够例如使总体表达重新经受语音识别,所述语音识别由于通过部分语音识别的预先选择而相对于由城市名称、街道名称和门牌号码所组成的所有可能组合需要明显减小了的词汇表。也随之出现对存储容量和计算容量的较低要求。 在该方法的变型方案中,借助于隐马尔可夫模型来使第一表达部分经受部分语音识别。在此,利用填充数据来覆盖其余的表达部分以用于部分语音识别。也被称为垃圾数据的所述填充数据只造成用于创建根据隐马尔可夫模型的相应的词汇表的小的存储需求和计算需求。如果例如待识别的部分表达位于表达的开始,如在通过城市名称来输入地址的情况下那样,则在隐马尔可夫模型的范围内利用数据库的已知城市名称来训练一定数目的在时间上首先得到的音素,而利用垃圾或者填充音素来训练其它的所得到的表达部分。在第二语音识别步骤中,可以通过由搜索词汇、例如街道名称所构成的搜索词来代替在第一部分语音识别步骤中利用填充数据所占用的表达部分。因此,在总体表达经受语音识别的第二语音识别步骤中,已经可以明显限制词汇表,因为只需通过隐马尔可夫模型与针对借助于部分语音识别所识别出的第一表达部分的命中词选择一致的可能的搜索项进行建模。原则上,第一语音识别级所基于的第一表达部分位于什么时间位置在此不起任何作用。即使待识别的第一表达部分由其它表达部分包围的表达也可以通过根据本专利技术的语音识别方法来处理。 此外可以使第一表达部分通过确定总体表达在时间上的能量变化被识别出并且经受部分语音识别。 一般,表达部分可以通过可检测到的讲话暂停来相互分开,从而表达的在某些时刻特别低的能量可以用作表达部分之间的间隙的指示器。还可以使用公知的语音活动识别方法以用于确定表达中的第一表达部分。 优选地,包括下列方法步骤中的一个或者多个-记录(Aufnehmen)表达,所述表达包括多个表达部分; _提供第一词汇表,所述第一词汇表包括由搜索词、音素组合和/或转移概率组成的第一列表;-借助于所提供的第一词汇表来执行对所记录的表达的所选择的第一表达部分的部分语音识别以用于从搜索词列表中确定命中词选择;-根据命中词选择提供第二词汇表,其中所述第二词汇表包括由多个搜索词的搜索词组合、音素组合和/或转移概率所组成的列表;-借助于所述第二词汇表来执行对所记录的表达的语音识别以用于从搜索词组合列表中确定命中词选择。 对表达的记录例如可以通过麦克风和连接在后面的模拟/数字转换器来进行,所述模拟/数字转换器为其它的计算单元、例如嵌入式系统中的CPU提供数字表达。第一词汇表例如通过控制装置或者计算装置来创建,所述控制装置或者计算装置对具有搜索词和该搜索词的相应音素标注(Phonemtranskription)的数据库进行访问。语音识别词汇表的提供通常要求高的计算性能和/或用于中间存储对于语音识别来说可读取并可处理的词汇表的大量的存储空间,其中所述语音识别例如是以软件实施的形式存在的。 在与现有技术不同不通过由用户进行的验证或者确认来发起的第二语音识别步骤中,向第二词汇表添加关于来自部分语音识别的命中词的其它信息。这例如可以包括创建词汇表,所述词汇表向来自部分识别步骤的所识别出的最佳城市名称附加相应的符合的街道名称。 例如可设想,存在包括一个国家的所有城市名称以及所有街道名称和所属门牌号码的数据库。除了填充数据之外,对于部分语音识别来说必要的第一词汇表只须访问作为上位概念的城市或者地点名称。然后,作为第二语音识别步骤中的其它概念,附加街道名称和门牌号码作为下位概念。但是,并不是所有可从数据库中提取出的街道名称都对于语音识别来说是相关的,而是只有那些被分配给作为上位概念的城市名称的并且被部分语音识别辨识为命中词的街道名称才是相关的。 有利地,在根据本专利技术的的变型方案中,在读入第二词汇表之前,从存储器中删除第一词汇表。因此,尤其是在嵌入式系统的情况下保证了高效的存储器利用。 为了更高效地利用相应语音识别系统的资源,规定该语音识别方法的另一种变型方案,即在首先执行的部分语音识别的情况下所确定的表达和/或表达部分的特征在对其它表达部分和/或总体表达进行语音识别的情况下被再次使用。 尤其是考虑在本文档来自技高网
...

【技术保护点】
一种用于对待识别的表达(A)进行语音识别的方法,所述表达(A)具有多个待识别的表达部分(A1-A5),其中对所选择的第一表达部分(A1)进行部分语音识别(S1)并且根据通过所述部分语音识别(S1)所识别出的针对第一表达部分(A1)的命中词选择来执行对所述表达(A)的第一(A1)和其它表达部分(A2-A5)的语音识别(S2)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M万丁格尔JF吉塔特佩雷斯B利特尔
申请(专利权)人:斯沃克斯公司
类型:发明
国别省市:CH[瑞士]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1