基于语言模型的信息检索和语音识别制造技术

技术编号：3047426 阅读：208 留言：0更新日期：2012-04-11 18:40

一种语言模型（７０）用于一个语音识别系统（６０）中，它访问一个第一类、较小的数据存储器（７２）和一个第二类、较大的数据存储器（７４）。通过公式化表达一个基于包含在上述第一类数据存储器（７２）中的信息的信息检索查询和查询上述第二类数据存储器（７４），可以对语言模型（７０）进行适配。从第二类数据存储器（７４）中检索的信息用来适配该语言模型（７０）。并且，语言模型用来从上述第二类数据存贮器（７４）中检索信息。语言模型是基于第一类数据存储器（７２）中的信息和第二类数据存储器（７４）中的信息来构建的。在给定第一个语言模型和第二个语言模型之后，在第二类数据存储器（７４）中的文档的复杂度就可以被确定了。文档的相关度是根据上述第一和第二复杂度来确定的。检索具有超过某一门限水平的相关度测度的文档。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是关于语音识别和信息检索的，更具体地讲，本专利技术是关于一种利用信息检索技术来匹配某种语言模型的语音识别系统以及一种利用语音识别语言模型来检索相关的文档的信息检索技术的。一般地讲，信息检索是一个从大量的信息存储中查找和检索与用户有关的信息的过程。在执行信息检索的过程中，检索出用户需要的所有信息是重要的(即完整性是重要的)，同时限制检索出的与用户无关的信息也是重要的(即选择性也是重要的)。这些方面通常根据查全率(完整性)和精确率(选择性)来定义。在许多信息检索系统中，非常有必要在查全率和精确率两方面都获得良好的性能。在目前的一些检索系统中，能够被查询和检索的信息是非常大的。例如，一些信息检索系统被设置为在因特网、数字视频盘和其它通用的计算机数据库中搜索信息。例如这些信息检索系统通常被做成因特网搜索引擎和库目录搜索引擎。许多信息检索技术是众所周知的。例如当用户需要文档类或与现有文档的某个集合相似的信息时，在这些技术中，一个用户输入查询通常被表示成要么是一个明确的由用户生成的查询，要么是一个隐含的查询。然后，典型的信息检索系统在庞大的数据存储中在单词级或在术语级上搜索文档。这些文档中的每一个都被指定了一个关联(或相似)度，信息检索系统向用户提供被搜索的文档的一定子集，通常该子集具有一个超过某给定的门限的相关度。目前一些著名的信息检索技术或方法包括全文本扫描、签名文件的使用、转换、矢量建模和聚类以及tf*idf(术语频率*反相文档频率)。在全文本扫描中，布尔函数被用在一个查询中以确定被搜索的某个文档是否包含某些词串，在这种扫描技术中，通常是搜索文档...

【技术保护点】
一种对用于语音识别系统中的语言模型进行适配的方法，该语音识别系统可以访问第一类数据存储器和第二类数据存储器，其中第二类数据存储器比第一类数据存储器的数据量要大，该方法包括：依据在第一类数据存储器中所包含的信息将信息检索查询公式化；依据该被公式化的查询，对第二类数据存储器执行查询；依据该查询从第二类数据存储器中检索信息；以及依据被检索到的信息和第一类数据存储器中的信息，对该语言模型进行适配。

【技术特征摘要】
US 1998-3-30 09/050,2861．一种对用于语音识别系统中的语言模型进行适配的方法，该语音识别系统可以访问第一类数据存储器和第二类数据存储器，其中第二类数据存储器比第一类数据存储器的数据量要大，该方法包括依据在第一类数据存储器中所包含的信息将信息检索查询公式化；依据该被公式化的查询，对第二类数据存储器执行查询；依据该查询从第二类数据存储器中检索信息；以及依据被检索到的信息和第一类数据存储器中的信息，对该语言模型进行适配。2．权利要求1的方法还包括当用户正在使用语音识别系统时，重复执行公式化、查询、检索和适配的步骤。3．权利要求2中的方法，其中当用户正在使用该语音识别系统时，进行公式化、查询、检索和适配的步骤能间隔地执行。4．权利要求1的方法，其中对一个信息检索查询进行公式化的方法包括依据以前被用户创建的文档和被存储在第一类数据存储器中的文档来对信息检索查询进行公式化。5．权利要求1的方法，其中对一个信息检索查询进行公式化的步骤包括依据在被用户准备的文档中所包含的信息来对信息检索查询进行公式化。6．权利要求1的方法，其中对一个信息检索查询进行公式化的步骤包括依据与被用户准备的一类文档相关的信息来对信息检索查询进行公式化。7．权利要求6的方法，其中对一个信息检索查询进行公式化的步骤包括依据一个正在被用户用来准备该文档的模板来对信息检索查询进行公式化。8．权利要求6的方法，其中对一个信息检索查询进行公式化的步骤包括依据一个正在被用户用来准备该文档的应用程序来对信息检索查询进行公式化。9．权利要求6的方法，其中对一个信息检索查询进行公式化的步骤包括依据用户正在准备该文档的一天中的一段时间来对信息检索查询进行公式化。10．权利要求1的方法，其中对信息执行检索的步骤包括从第二类信息存储器中检索出大量的文档；以及确定与每一个所被检索到的文档相关的相关度。11．权利要求10的方法，其中对语言模型进行适配的步骤包括依据被检索到的具有能满足门限值的相关度的相关的文档来对语言模型进行适配。12．权利要求11的方法，其中对语言模型进行适配的步骤包括给每个相关的文档分配一个权重；以及按照被分配给每个相关的文档的权重，依据这些相关的文档来对语言模型进行适配。13．权利要求1的方法，其中从第二类数据存储器中检索信息的步骤包括从第二类数据存储器中检索出大量的文档以及还包括给从第二类数据存储器中被检索到的文档分配比在第一类数据存储器中的信息较低的权重；以及其中对语言模型进行适配的步骤包括依据在第一类数据存储器中的信息和被检索到的、按照在第一类数据存储器中的信息被加权的文档来对语言模型进行适配。14．权利要求1的方法，其中语言模型包括词序列的概率估算值，以及其中对语言模型的适配的步骤包括依据在第一类数据存储器中的信息和从第二类数据存储器中所检索的信息，对概率估算值进行调整。15．权利要求12的方法，其中给从第二类数据存储器中检索到的文档分配权重的步骤包括当第二类数据存储器被查询的次数增加时，给从第二类数据存储器中检索到的文档分配一个递增的权重，并至少直至该递增的权重达到某个权重门限值为止。16．权利要求1的方法，其中对第二类数据存储器进行查询的步骤包括通过全局计算机网络查询信息。17．权利要求1的方法，其中执行适配的步骤包括依据从第一个查询中所检索到的信息和在第一类数据存储器中的信息来构造第一种语言模型。18．权利要求17的方法，其中执行适配的步骤还包括依据从一个后续的查询中所检索到的信息来构造第二种语言模型；以及将第一种语言模型和第二种语言模型组合起来。19．一种从与第一类数据存储器中所存储的信息相关的第二类数据存储器中检索信息的方法，其中第二类数据存储器比第一类数据存储器中的数据量要大，该方法包括依据在第一类数据存储器中所存储的信息来提供第一种语言模型；提供第二种语言模型；在给定第一种语言模型的情况下，确定在第二类数据存储器中的一个文档的第一复杂度；在给定第二种语言模型的情况下，确定该文档的第二复杂度；依据第一复杂度和第二复杂度，确定该文档的相关度；以及依据此相关度，有选择地对该文档进行检索...

【专利技术属性】
技术研发人员：米林德V迈哈简，黄学东，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人