大规模词汇的语音识别装置和方法制造方法及图纸

技术编号：3047010 阅读：155 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种语音识别方法，其包括语音样本（２０１）的声音处理步骤（６０１）和要应用于至少一个设备的命令确定步骤（６０２），以及所述声音处理步骤和命令确定步骤在语言模型存储器（３０５）中使用单一表示。本发明专利技术同样涉及相应的设备（１０２）和计算机程序产品。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别领域。具体地，本专利技术涉及大规模的词汇语音接口。其具体应用于命令和控制系统，例如电视和多媒体领域。众所周知，大规模词汇的连续语音识别系统的设计需要产生定义或者估计可接收单词串的语言模型，这些单词串构成了由语言模型识别的句子。在大规模词汇系统中，语言模型能够使语音处理模块构造对于向其提供的声音信号来说可能性最大的句子(即一组单词)。然后，该句子必须由理解模型分析，以便在语音控制系统层次上将其变换成一系列可以理解的动作(命令)。目前，语言模型通常使用两种方法，即，N-gram型模型和文法模型。就当前的技术水平而言，由于这些应用程序的目的只是将声音信号转换成一组单词，N-gram语言模型具体用于语音听写系统，由于需要分析被转换句子的含义，基于随机文法的系统应用于语音命令和控制系统中。因此，在本专利技术的框架中采用了随机文法。根据目前的技术水平，大部分使用文法的语音识别系统都基于SAPI(代表“语音应用编程接口”)模型的标准化构架，其由Microsoft公司(注册商标)规定，并且顺序执行两个独立的动作利用语言模型识别说出的句子；和分析(剖析)识别的句子。在语音处理模型层次上使用的语言模型表示很容易根据在当前的声音信号处理步骤中的设定来弄清遵循给定的作品的单词。将应用程序的文法转换为有限状态自动机器，由于这种表示便于将由文法构造的语言模型集成到目前的引擎中常常使用的裁减型N-best解码方案中。在MIT出版社于1998年出版的Frederick Jelinek的著作“语音识别的随机方法”(Statistical Methods for ...

【技术保护点】
一种语音识别方法，其特征在于包括语音样本（２０１）的声音处理步骤（６０１）和要应用于至少一个设备的命令确定步骤（６０２），以及在于所述声音处理步骤和命令确定步骤在语言模型存储器（３０５）中使用单一表示（３０９）。

【技术特征摘要】
【国外来华专利技术】FR 2000-5-23 00/065761.一种语音识别方法，其特征在于包括语音样本(201)的声音处理步骤(601)和要应用于至少一个设备的命令确定步骤(602)，以及在于所述声音处理步骤和命令确定步骤在语言模型存储器(305)中使用单一表示(309)。2.根据权利要求1所述的语音识别方法，其特征在于所述语音样本的声音处理步骤包括识别至少一个考虑了所述语音模型和所述语言模型的语义数据集(500到506)，所述集合被直接馈送到所述命令确定步骤。3.根据权利要求1和2中任何一项所述的语音识别方法，其特征在于所述命令确定的步骤包括在所述语言模型和所述声音处理步骤的结果的基础上产生语义数据集合的子步骤，以便允许产生所述命令。4.根据权利要求3所述...

【专利技术属性】
技术研发人员：瑟奇勒胡伊特欧斯，弗雷德里克苏夫莱，
申请(专利权)人：汤姆森许可贸易公司，
类型：发明
国别省市：FR[法国]

全部详细技术资料下载我是这个专利的主人