大规模词汇的语音识别装置和方法制造方法及图纸

技术编号:3047010 阅读:155 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种语音识别方法,其包括语音样本(201)的声音处理步骤(601)和要应用于至少一个设备的命令确定步骤(602),以及所述声音处理步骤和命令确定步骤在语言模型存储器(305)中使用单一表示。本发明专利技术同样涉及相应的设备(102)和计算机程序产品。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别领域。具体地,本专利技术涉及大规模的词汇语音接口。其具体应用于命令和控制系统,例如电视和多媒体领域。众所周知,大规模词汇的连续语音识别系统的设计需要产生定义或者估计可接收单词串的语言模型,这些单词串构成了由语言模型识别的句子。在大规模词汇系统中,语言模型能够使语音处理模块构造对于向其提供的声音信号来说可能性最大的句子(即一组单词)。然后,该句子必须由理解模型分析,以便在语音控制系统层次上将其变换成一系列可以理解的动作(命令)。目前,语言模型通常使用两种方法,即,N-gram型模型和文法模型。就当前的技术水平而言,由于这些应用程序的目的只是将声音信号转换成一组单词,N-gram语言模型具体用于语音听写系统,由于需要分析被转换句子的含义,基于随机文法的系统应用于语音命令和控制系统中。因此,在本专利技术的框架中采用了随机文法。根据目前的技术水平,大部分使用文法的语音识别系统都基于SAPI(代表“语音应用编程接口”)模型的标准化构架,其由Microsoft公司(注册商标)规定,并且顺序执行两个独立的动作利用语言模型识别说出的句子;和分析(剖析)识别的句子。在语音处理模型层次上使用的语言模型表示很容易根据在当前的声音信号处理步骤中的设定来弄清遵循给定的作品的单词。将应用程序的文法转换为有限状态自动机器,由于这种表示便于将由文法构造的语言模型集成到目前的引擎中常常使用的裁减型N-best解码方案中。在MIT出版社于1998年出版的Frederick Jelinek的著作“语音识别的随机方法”(Statistical Methods for Speech Recognition)中对这种技术进行了具体说明。分析模型通常是传统的句法分析器(称为“剖析器”),其遍历文法的句法树并且在被称为“生成要点”的特定点上作用于事先确定的语义数据。在InterEditions于1989年出版的Alfrad Aho,Ravi Sethi和Ullman的著作“Compliateurs.Principes,techniques et outils”[编译器.原理,技术与工具]中说明了这种分析模型的示例。语言模型的质量可以由下面的指标来度量复杂度(Perplexity),其定义为在讨论的模型中跟随任意的单词的单词的平均数目。复杂度越小,调用语音识别算法就越少,因为其针对较少数目的可能性来作出决定。存储器空间,即其占据的存储器空间。这对于嵌入在应用程序中的大规模词汇来说尤其重要,其中语言模型可以是占用多数存储器的应用程序的一部分。已有技术的缺点是具有给定复杂度的语言模型的占有相对较大的存储空间。此外,根据目前的技术水平,把识别模型提供的句子发送给句法分析模块,其使用“剖析器”来对句子解码。此外,已有技术的另一缺点是在用户讲话之时和他的话被识别时之间有不可忽视的等待时间。更准确地地说,本专利技术的目的是提供一种语音识别系统和方法,其能够在给定的复杂度下优化存储器的使用。本专利技术的另一目的是减少在说出句子之后到语音识别结束时的等待时间。为此目的,本专利技术提出一种语音识别方法,其显著之处在于包括语音样本的声音处理步骤和要被施加于至少一个装置的命令的确定步骤,以及在于所述的声音处理和命令确定步骤使用语言模型的存储器中的单一表示。要注意的是语言模型具体包括通过识别说出的句子来进行声音处理步骤的单元,例如通常使用的文法中出现的单元;和提取诸如下面说明的生成要点之类的命令所需要的单元。这里,可以将命令理解为在严格意义下以对话,控制或者命令的形式在设备上表示任何动作或者同时和/或连续动作的集合的意思。同样要注意的是命令的产生步骤使其能够产生命令,该命令在一定的条件下可以被设备直接理解;在命令不能被直接理解的情况下,它的翻译要简单以便于执行。根据具体的特点,语音识别方法值得注意之处在于所述语音样本的声音处理步骤包括利用所述语音样本和所述语言模型识别至少一组语义数据,所述的数据组直接反馈所述的命令确定步骤。要注意的是,在这里,措辞“语义数据”表示“生成要点”。根据具体的特点,语音识别方法值得注意之处在于所述命令确定步骤包括根据所述语言模型和所述声音处理步骤的结果产生一组语义数据的子步骤,以便产生所述命令。根据具体的特点,语音识别方法值得注意之处在于所述产生一组语义数据的子步骤包括利用网格回溯(trellis backtrack)提供所述的语义数据。因此,本专利技术的有利之处在于实现起来相对简单而经济,尤其可以应用于大规模词汇的语言模型。此外,本专利技术的有利之处在于能够进行可靠的识别,其最好基于确定命令所需单元的语音解码。本专利技术同样涉及语音识别装置,值得注意之处在于其包括语音样本的声音处理装置和确定要施加于至少一个设备的命令的装置,以及在于所述声音处理和命令确定装置使用语言模式存储器中的同一个表示。此外,本专利技术涉及计算机程序产品,其包括可以由至少一个微型处理器读取的媒介上的程序单元,值得注意之处在于所述程序单元控制所述微型处理器或者多个微型处理器,以便它们执行语音样本的声音处理步骤和确定要施加于至少一个设备的命令的步骤,所述声音处理和确定命令的步骤使用语言模型存储器中的同一个表示。本专利技术同样涉及计算机程序产品,值得注意之处在于当该程序在计算机中执行时所述程序包括适用于实现如上所述的语音识别方法的指令序列。语音识别装置和计算机程序产品的优点与语音识别方法的相同,这里不再多说。附图说明图1示出了包括语音命令单元的系统的通用原理图,在该单元中实现了本专利技术的技术;图2示出了图1的系统中语音识别单元的原理图;图3示出了实现图2的原理图的语音识别单元的电气布局;图4示出了根据语音识别方法已知的实质情况使用的有限状态自动机;图5示出了图1到图3所示的单元使用的有限状态自动机;和图6示出了图1到图3所示单元使用图5的自动机实现的语音识别算法。该语言模型的表示必须要根据其使用方案来被有效利用。根据本专利技术,使用文法的单一表示。(而根据已有技术,文法表示两次第一次是用于语言模块,例如,通常以有限状态自动机的形式,而第二次是在句法分析器中,例如以分析器LL(k)的形式。现在,这两种模块以两种不同形式携带着相同的信息,即认可的句法串(permitted syntacticstrings)。此外,根据本专利技术,不存在句法分析阶段(或者“剖析”阶段)没有句子为了分析而在两个模块之间交换。通常用于语音识别中的“回溯”(或者更具体地称为“网格回溯”)(在前面提及的Jelinek的著作中描述过)对于确定命令的理解阶段是足够的。本专利技术能够保证需求的功能,即根据语音样本来识别命令。通过语音处理模块和理解模块共享的表示来保证该功能。首先回顾文法的两种通常使用方式指示可以跟随在给定的单词组之后的单词,以便将它们与输入系统的声音信号进行比较;从被显示为可能性最大的单词组开始分析,以便弄清其结构,并因此确定要在语音控制系统上执行的动作。根据本专利技术,共享的结构包括与两种使用方式有关的信息。更具体地,其表示一定的假设(在这里的上下文中,句子从左边开始),以便能够提取从这个开始延续出来的单词,并且能够通过向已经存在的假设添加额外的单词来重复该方法。这就达到了语音处理模块的要求。另外,在“结束”假设本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于包括语音样本(201)的声音处理步骤(601)和要应用于至少一个设备的命令确定步骤(602),以及在于所述声音处理步骤和命令确定步骤在语言模型存储器(305)中使用单一表示(309)。

【技术特征摘要】
【国外来华专利技术】FR 2000-5-23 00/065761.一种语音识别方法,其特征在于包括语音样本(201)的声音处理步骤(601)和要应用于至少一个设备的命令确定步骤(602),以及在于所述声音处理步骤和命令确定步骤在语言模型存储器(305)中使用单一表示(309)。2.根据权利要求1所述的语音识别方法,其特征在于所述语音样本的声音处理步骤包括识别至少一个考虑了所述语音模型和所述语言模型的语义数据集(500到506),所述集合被直接馈送到所述命令确定步骤。3.根据权利要求1和2中任何一项所述的语音识别方法,其特征在于所述命令确定的步骤包括在所述语言模型和所述声音处理步骤的结果的基础上产生语义数据集合的子步骤,以便允许产生所述命令。4.根据权利要求3所述...

【专利技术属性】
技术研发人员:瑟奇勒胡伊特欧斯弗雷德里克苏夫莱
申请(专利权)人:汤姆森许可贸易公司
类型:发明
国别省市:FR[法国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利