当前位置: 首页 > 专利查询>微软公司专利>正文

基于语言模型的信息检索和语音识别制造技术

技术编号:3047426 阅读:208 留言:0更新日期:2012-04-11 18:40
一种语言模型(70)用于一个语音识别系统(60)中,它访问一个第一类、较小的数据存储器(72)和一个第二类、较大的数据存储器(74)。通过公式化表达一个基于包含在上述第一类数据存储器(72)中的信息的信息检索查询和查询上述第二类数据存储器(74),可以对语言模型(70)进行适配。从第二类数据存储器(74)中检索的信息用来适配该语言模型(70)。并且,语言模型用来从上述第二类数据存贮器(74)中检索信息。语言模型是基于第一类数据存储器(72)中的信息和第二类数据存储器(74)中的信息来构建的。在给定第一个语言模型和第二个语言模型之后,在第二类数据存储器(74)中的文档的复杂度就可以被确定了。文档的相关度是根据上述第一和第二复杂度来确定的。检索具有超过某一门限水平的相关度测度的文档。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于语音识别和信息检索的,更具体地讲,本专利技术是关于一种利用信息检索技术来匹配某种语言模型的语音识别系统以及一种利用语音识别语言模型来检索相关的文档的信息检索技术的。一般地讲,信息检索是一个从大量的信息存储中查找和检索与用户有关的信息的过程。在执行信息检索的过程中,检索出用户需要的所有信息是重要的(即完整性是重要的),同时限制检索出的与用户无关的信息也是重要的(即选择性也是重要的)。这些方面通常根据查全率(完整性)和精确率(选择性)来定义。在许多信息检索系统中,非常有必要在查全率和精确率两方面都获得良好的性能。在目前的一些检索系统中,能够被查询和检索的信息是非常大的。例如,一些信息检索系统被设置为在因特网、数字视频盘和其它通用的计算机数据库中搜索信息。例如这些信息检索系统通常被做成因特网搜索引擎和库目录搜索引擎。许多信息检索技术是众所周知的。例如当用户需要文档类或与现有文档的某个集合相似的信息时,在这些技术中,一个用户输入查询通常被表示成要么是一个明确的由用户生成的查询,要么是一个隐含的查询。然后,典型的信息检索系统在庞大的数据存储中在单词级或在术语级上搜索文档。这些文档中的每一个都被指定了一个关联(或相似)度,信息检索系统向用户提供被搜索的文档的一定子集,通常该子集具有一个超过某给定的门限的相关度。目前一些著名的信息检索技术或方法包括全文本扫描、签名文件的使用、转换、矢量建模和聚类以及tf*idf(术语频率*反相文档频率)。在全文本扫描中,布尔函数被用在一个查询中以确定被搜索的某个文档是否包含某些词串,在这种扫描技术中,通常是搜索文档的每个词以查看它是否满足搜索串(也就是该查询),然后,当发现词串不匹配时,将搜索串向右边移动一个位置。该系统已经被适配,可以使用对这个查询进行预处理的其它方法,例如当发现词串不匹配时,将搜索串向右边移动多个位置。签名文件的使用涉及到从被检索的文档中去除常用的词,并把不常用的词变为词干。每个被搜索的文档都产生一个位串(即一个签名)。各种文档的这些签名被顺序地存储在与这些文档本身相分离的一个文件中。转换技术涉及到构造一关键词列表以表示每个文档。这些关键词存储在一个索引文件中。对于每个关键词都包含有一个代表合格文档的指针列表。然后,该查询会沿着索引进行,并用指针来识别相关的和合格的文档。矢量建模和聚类涉及到把相类似的文档划分成被称为簇的组(这种技术也能够应用于术语而不是文档中)。为了生成一个簇,把常用的词去除并把剩余的词变成词干(这包括前缀和后缀的去除)以形成索引。同义词一般也被放在一个概念类中,该概念类中的术语可以用频率、特殊性、相关度等来加权。索引被用来将这些文档表示为t-维空间中的一个点。然后,这些点被用一个相似性矩阵划分为多个组,此矩阵通常是通过迭代过程生成的。为了搜索簇,一个查询被表示为一个t-维矢量并与簇中心进行比较。一个簇至查询相似性函数被生成并被用来提出相关的文档。被提出(或被检索)的那些文档通常是那些具有超过某一预定义的门限值的相似性值的文档。为了获得更好的性能,在一些信息检索技术中,语义信息被用来捕获更多关于信息存储中每个文档的信息。在这种系统中,自然语言处理被用来将查询的语义内容与被检索的文档的语义内容进行匹配。语句或词组被用作对所检索的文档进行索引的术语。隐含的语义索引涉及到构成一个术语/文档矩阵,在该矩阵中,一个指定文档中的术语出现的频率被标记在矩阵中。小的奇异值通常被移去而剩余的术语的频率矢量则被映射。查询也被生成术语的频率矢量,而且根据包含这些文档的术语频率矢量的矩阵被映射。为了获得余弦相似性测度,这些文档使用归一化线性产品进行分类。使用语义信息的另一类信息检索技术是神经网络。实际上,对应于辞典中的每一个概念,构造一个辞典隐含层中的一个节点。然后,利用遍历激活方法传递搜索。术语频率*反相文档频率(tf*idf)是被用来确定文档的相关度的另一种技术。首先,在一个查询中所使用的术语根据该文档来测量以确定在该文档中那个术语的频率。可以肯定,当文档中的术语的频率增加时,与该文档和该术语相关联的程度也增大。同样可以肯定,当术语出现在其中的文档数量增加时,用来区分各文档的术语的有效性降低了。因此,指定术语的频率也根据整个数据存储来测量以确定在所有的文档中该术语的频率级。这两种测量方法被用来确定在被检索的数据存储中任意给定的文档的相关度。当检索可访问的数据库变得越来越多,以及当这些数据库变得越来越大时,与信息检索有关的问题也变得越来越多。换句话说,在检索过程中,利用较大的和数量较多的数据库通常难以获得可接受的超过查全率和精确度的性能。为了生成一个发言意义上的副本,语音识别系统使用被包含在讲稿中的声音和词语(或语言)信息的合成体。在语音识别系统中,一个识别器使用的语言信息统称为一个语言模型。目前许多语音识别系统使用具有统计特性的语言模型。这些语言模型通常使用已知的技术并依据被提供给语言模型生成器的大量的文本训练数据来生成。例如,一个N-gram语言模型可以利用已知的例如,Katz技术或二项式后分布补偿技术。在使用这些技术的过程中,语言模型估算出词w(n)服从词序列w1,w2,…w(n-1)的概率。这些概率值共同组成N-gram语言模型。有许多已知的方法能够用来从提供给语言模型生成器的大量文本集合中估算出这些概率值,对本专利技术来说,使用确切的方法进行操作并不重要。重要的是该语言模型通过允许识别器利用语言中有关的词序列的似然性、容许性或有意义性等信息,在提高识别过程的精确度和速度上起着重要的作用。此外,捕获了更多的有关语言的信息的语言模型会产生更快和更精确的语音识别系统。通常,为了特定的目的,被用来训练语言模型的庞大的训练文本集合被专门收集起来并提供给该语言模型生成器。因此,语言模型通常被生成来满足某些广泛的使用类别。一些使用类别可以是常用的英语语言、办公通信和体育等。然而,任何一个具体的用户的兴趣,以及由此被这个具体的用户使用的语言通常可以是比这些广泛的语言模型种类更具体的语言。因此,由这种语言模型生成的概率估算值不可能精确地模拟被该用户使用的实际语言。而且,由于用户的兴趣种类几乎是不受限制的,因此,很难为每个用户生成非常具体的语言模型。一些现有系统已经试图根据应用的需要来对该语言模型进行适配来解决此问题。在适配期间,由该语言模型分配给词序列的概率估算值被调整来更紧密地反映用户的实际语言。被用于适配的文本数据是由用户指定的。例如,这种文本数据可以由被此用户指定的文本或者被该用户在文档中所生成的文本、被该用户从文档中所读取的文本、或被该用户在文档中所存储的文本构成。然而,为了精确地适配一个语言模型,必须馈送大量的数据。而该用户所指定的可以使用的数据通常是很少的,不能快速地对该语言模型进行适配,或者不能生成一个有意义的、用户指定的语言模型。一种用在能对第一类较小的数据存储和第二类、较大的数据存储进行访问的语音识别系统中的语言模型。该语言模型依据在第一类数据存储中所包含的信息,通过对信息检索查询进行公式化以及对第二类数据存储执行查询来适配。从第二类数据存储中所检索到的信息被用来适配该语言模型或生成该语言模型。在一个首选实施例中,通常较小的第一本文档来自技高网...

【技术保护点】
一种对用于语音识别系统中的语言模型进行适配的方法,该语音识别系统可以访问第一类数据存储器和第二类数据存储器,其中第二类数据存储器比第一类数据存储器的数据量要大,该方法包括: 依据在第一类数据存储器中所包含的信息将信息检索查询公式化; 依据该被公式化的查询,对第二类数据存储器执行查询; 依据该查询从第二类数据存储器中检索信息;以及 依据被检索到的信息和第一类数据存储器中的信息,对该语言模型进行适配。

【技术特征摘要】
US 1998-3-30 09/050,2861.一种对用于语音识别系统中的语言模型进行适配的方法,该语音识别系统可以访问第一类数据存储器和第二类数据存储器,其中第二类数据存储器比第一类数据存储器的数据量要大,该方法包括依据在第一类数据存储器中所包含的信息将信息检索查询公式化;依据该被公式化的查询,对第二类数据存储器执行查询;依据该查询从第二类数据存储器中检索信息;以及依据被检索到的信息和第一类数据存储器中的信息,对该语言模型进行适配。2.权利要求1的方法还包括当用户正在使用语音识别系统时,重复执行公式化、查询、检索和适配的步骤。3.权利要求2中的方法,其中当用户正在使用该语音识别系统时,进行公式化、查询、检索和适配的步骤能间隔地执行。4.权利要求1的方法,其中对一个信息检索查询进行公式化的方法包括依据以前被用户创建的文档和被存储在第一类数据存储器中的文档来对信息检索查询进行公式化。5.权利要求1的方法,其中对一个信息检索查询进行公式化的步骤包括依据在被用户准备的文档中所包含的信息来对信息检索查询进行公式化。6.权利要求1的方法,其中对一个信息检索查询进行公式化的步骤包括依据与被用户准备的一类文档相关的信息来对信息检索查询进行公式化。7.权利要求6的方法,其中对一个信息检索查询进行公式化的步骤包括依据一个正在被用户用来准备该文档的模板来对信息检索查询进行公式化。8.权利要求6的方法,其中对一个信息检索查询进行公式化的步骤包括依据一个正在被用户用来准备该文档的应用程序来对信息检索查询进行公式化。9.权利要求6的方法,其中对一个信息检索查询进行公式化的步骤包括依据用户正在准备该文档的一天中的一段时间来对信息检索查询进行公式化。10.权利要求1的方法,其中对信息执行检索的步骤包括从第二类信息存储器中检索出大量的文档;以及确定与每一个所被检索到的文档相关的相关度。11.权利要求10的方法,其中对语言模型进行适配的步骤包括依据被检索到的具有能满足门限值的相关度的相关的文档来对语言模型进行适配。12.权利要求11的方法,其中对语言模型进行适配的步骤包括给每个相关的文档分配一个权重;以及按照被分配给每个相关的文档的权重,依据这些相关的文档来对语言模型进行适配。13.权利要求1的方法,其中从第二类数据存储器中检索信息的步骤包括从第二类数据存储器中检索出大量的文档以及还包括给从第二类数据存储器中被检索到的文档分配比在第一类数据存储器中的信息较低的权重;以及其中对语言模型进行适配的步骤包括依据在第一类数据存储器中的信息和被检索到的、按照在第一类数据存储器中的信息被加权的文档来对语言模型进行适配。14.权利要求1的方法,其中语言模型包括词序列的概率估算值,以及其中对语言模型的适配的步骤包括依据在第一类数据存储器中的信息和从第二类数据存储器中所检索的信息,对概率估算值进行调整。15.权利要求12的方法,其中给从第二类数据存储器中检索到的文档分配权重的步骤包括当第二类数据存储器被查询的次数增加时,给从第二类数据存储器中检索到的文档分配一个递增的权重,并至少直至该递增的权重达到某个权重门限值为止。16.权利要求1的方法,其中对第二类数据存储器进行查询的步骤包括通过全局计算机网络查询信息。17.权利要求1的方法,其中执行适配的步骤包括依据从第一个查询中所检索到的信息和在第一类数据存储器中的信息来构造第一种语言模型。18.权利要求17的方法,其中执行适配的步骤还包括依据从一个后续的查询中所检索到的信息来构造第二种语言模型;以及将第一种语言模型和第二种语言模型组合起来。19.一种从与第一类数据存储器中所存储的信息相关的第二类数据存储器中检索信息的方法,其中第二类数据存储器比第一类数据存储器中的数据量要大,该方法包括依据在第一类数据存储器中所存储的信息来提供第一种语言模型;提供第二种语言模型;在给定第一种语言模型的情况下,确定在第二类数据存储器中的一个文档的第一复杂度;在给定第二种语言模型的情况下,确定该文档的第二复杂度;依据第一复杂度和第二复杂度,确定该文档的相关度;以及依据此相关度,有选择地对该文档进行检索...

【专利技术属性】
技术研发人员:米林德V迈哈简黄学东
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1