对存储在数据库中的文档编制索引和进行检索的方法和系统技术方案

技术编号:2839568 阅读:308 留言:0更新日期:2012-04-11 18:40
提供了一种为存储在数据库中的文档编制索引和检索存储在数据库中的文档的方法。从每一个文档中提取文档特征矢量,然后,根据特征矢量给文档编制索引。将口头查询转换为代表口头查询中的项的可能连续组合的可能性的中间表示形式。根据所述中间表示形式生成查询确定性矢量。获取其他信息。将其他信息与查询确定性矢量组合。然后,将所述查询矢量以及所述其他信息与每一个文档特征矢量进行比较,以检索文档的分等级的结果集。

【技术实现步骤摘要】
【国外来华专利技术】
一般而言,本专利技术涉及给文档编制索引和从数据库中检索文档,以及多媒体内容,具体来说,涉及使用口头查询从数据库中检索。
技术介绍
借助于因特网,可以在全球范围内访问大量的存储了可以公开地访问的多媒体内容和文档的数据库。许多内容是以音频和视频记录的形式存在的。通常,使用在台式机系统上运行的浏览器和搜索引擎,通过让用户指定文本查询或跟随链接,检索存储的文档。键入的查询通常包括关键字或短语,输出也是文本或图像。诸如蜂窝电话和个人数字助理(PDA)之类的便携式通信设备也可以被用来访问因特网。然而,这样的设备具有有限的文本输入和输出功能。例如,蜂窝电话的小键盘不特别适合键入输入查询,许多PDA根本没有字符键。这些设备的显示器的大小也比较有限,难以阅读。这种设备更加适合语音输入和输出,特别是在文档包括诸如语音或音乐之类的音频信号的情况下。因此,有时使用口头查询。现有技术的对于口头查询的文档检索系统通常使用语音识别引擎,将口头查询转换为查询的文本抄本形式。然后,查询被当做文本,可以使用信息检索过程来检索匹配该查询的相关的文档。然而,该方法丢弃了可以用来改善检索系统的性能的有价值的信息。最严重的是,丢弃了整个音频频谱信号(口头查询),所剩余的只是原始文本内容,常常被曲解。当通过语音指定文档或查询时,必须提供新技术,以优化系统的性能。在使用文本查询来检索文档的常规信息检索系统中使用的技术对口头查询和口头文档执行得较差,因为语音识别引擎的文本输出常常包含错误。口头查询常常包含可以以许多不同的方式解释的多义现象。经过转换的文本甚至可能包含在口头查询的上下文内完全不一致的单词,并包括对任何听者来说显而易见的错误。语音识别引擎的简单文本输出丢弃了许多有价值的信息,如可能已经说了什么其他的单词,或者,查询听起来像什么。音频信号通常比较丰富,并包含许多特征,如音量和音高的变化,比较难以区别诸如重音或着重点之类的特征。所有这些信息都丢失。因此,需要改善使用口头查询的信息检索系统。此外,还需要在搜索可能匹配口头查询的文档时保持口头查询的确定性信息。具体来说,如果在搜索多媒体数据库时说了什么或没有说什么的概率是已知的,将改善文档检索。
技术实现思路
提供了一种给存储在数据库中的文档编制索引和检索存储在数据库中的文档的系统和方法。文档被定义为具有关联的文本的任何项目组,例如,艺术家、专辑,以及歌曲的标题。为每一个待编制索引的文档提取完全的文档特征矢量。可选地,将文档特征矢量投射到低维文档特征矢量。不论是哪一种情况,都根据完全或者低维文档特征矢量给文档编制索引。语音识别引擎将口头查询转换为中间表示形式。中间表示形式保留了音频信号的某些特征。中间表示形式可以是单词网格;单词的组成部分的网格、语音网格,或单词、单词的组成部分或音素的n-最佳列表。单词的组成部分可以是音节或其他单词段。笼统地,单词、单词的组成部分、音节以及音素这里被定义为“项”。在任何情况下,中间表示形式都表示口头查询中的项的可能连续组合。应该注意,中间表示形式与常规的经转换的文本字符串不同,后者表示语音识别引擎在将口头查询解释为单一文本字符串时已经尽了最大努力。已知,到文本的直接转换很可能出错。中间表示形式被转换为查询确定性矢量,该矢量可以可选地被投射到低维查询确定性矢量。将查询矢量与每一个文档特征矢量进行比较,以检索匹配的结果文档集。可以对结果文档集进行分级。此外,也可以使用其他信息来产生结果文档集并进行分级,例如,使用用户偏爱或位置。此外,可以使用诸如AND、OR以及NOT之类的布尔运算符,将多个口头查询合并到单一查询中。如此,可以近似为形式“X和Y,或Z,但不是Q”的逻辑查询。附图说明图1是根据本专利技术的使用口头查询的信息检索系统的方框图;图2是使用位置作为其他信息产生一组结果文档的检索系统的方框图;图3是使用多个逻辑查询作为其他信息产生一组结果文档的检索系统的方框图;以及图4是使用偏好作为其他信息产生一组结果文档的检索系统的方框图。具体实施例方式本专利技术提供了用于使用口头查询从多媒体数据库检索文档的系统和方法。本专利技术的概念是保持在口头查询中所说的内容的确定性信息,并在搜索数据库中的匹配文档时使用此信息。确定性信息表示项是什么的概率以及它们出现的顺序。确定性信息也可以使用音频信号的其他频谱特征,如音量和音高的变化,以判断口头查询中的某些项是否比其它的项更加重要。类似地,也可以根据保留了被索引的文档中的项的确定性的模型,对数据库中存储的文档进行索引。根据本专利技术的系统和方法判断和比较从语音或文本生成的特征矢量。比较特征矢量提供了用于在给定特定口头查询的情况下判断文档的相关性的度量。给定了记录的语音或文本的查询的情况下,使用度量来检索记录的语音和文本的相关的文档。对文档编制索引本专利技术提供了下列对文档编制索引的实施例。第一个实施例使用完全的维文档特征矢量来编制文档索引和检索文档。第二个实施例使用低维文档特征矢量来编制文档索引和检索文档。图1显示了根据本专利技术的文档索引和检索系统100。对系统的输入是文档101。为每一个文档提取110文档特征矢量102。文档特征矢量102是文档中的所有单词的加权列表。文档特征矢量也可以包括如下面定义和详细描述的“项”。每一个项的权重等于其在文档中出现的频率。比较频繁地出现的项可以被视为更加重要。每一个文档特征矢量被可选地投射120到较低的维,以产生低维(LD)文档特征矢量103。投影可以使用奇异值分解(SVD)以从常规矢量空间表示形式转换为低维投影。SVD技术已为大家所熟知。或者,可以使用潜在的语义分析(LSA)投影。LSA类似于SVD,只是它基于项频率的统计属性。其他低维投影表示形式也是可以的。与所有这些技术通用的是,每个文档都可以通过与在该文档中出现的项关联的值的低维矢量来表示。与项关联的值是该项对文档来说的估计的相对重要性的度量。也可以应用过滤器,以忽视常见的项,如冠词,例如,“the”和连接符。可以作为一个单独的列表维护待过滤和忽视的项,该列表也许可以由用户进行编辑。然后,使用文档特征矢量,完全或者低维的,对数据库140中的文档编制索引130。解释口头查询本专利技术提供了用于从口头查询判断查询确定性矢量的下列各项。第一个实施例使用完全维查询确定性特征矢量。第二个实施例使用低维查询确定性特征矢量。按如下方式处理口头查询105以搜索180数据库140。向语音识别引擎150提供口头查询。然而,不是如在现有技术中那样将口头查询直接转换为文本,根据本专利技术的系统生成中间表示形式106。中间表示形式106保留了音频语音信号的某些特征,并不是如在现有技术中那样简单地向文本字符串转换。中间表示形式可以呈现单词、单词的组成部分、音节、单词段或音素。笼统地,单词、单词的组成部分、单词段、音节,以及音素这里被定义为“项”。例如,日语口语短语“jamanasi ken no kijosatogendai bizjucukan”转换为项“ja ma na si ke n no ki jo sa to ge n da ibi zju cu ka n”。将口头查询转换为项的优点是,基于项的语音识别器需要的词汇量比大词汇量单词识别器需要的小得多。因此,基于项的识别器可以比大本文档来自技高网
...

【技术保护点】
一种计算机实现的用于对存储在数据库中的文档编制索引以及进行检索的方法,包括下列步骤:从多个文档中的每一个文档中提取文档特征矢量;根据关联的文档特征矢量给多个文档中的每一个文档编制索引;将口头查询转换为代表所述口头查询中的项的可能连续组合的中间表示形式;根据所述中间表示形式生成查询确定性矢量;获取其他信息;将所述其他信息与所述查询确定性矢量组合;以及将所述查询矢量以及所述其他信息与每一个文档特征矢量进行比较,以检索文档的分等级的结果集。

【技术特征摘要】
【国外来华专利技术】US 2005-2-25 11/067,1651.一种计算机实现的用于对存储在数据库中的文档编制索引以及进行检索的方法,包括下列步骤从多个文档中的每一个文档中提取文档特征矢量;根据关联的文档特征矢量给多个文档中的每一个文档编制索引;将口头查询转换为代表所述口头查询中的项的可能连续组合的中间表示形式;根据所述中间表示形式生成查询确定性矢量;获取其他信息;将所述其他信息与所述查询确定性矢量组合;以及将所述查询矢量以及所述其他信息与每一个文档特征矢量进行比较,以检索文档的分等级的结果集。2.根据权利要求1所述的方法,进一步包括将所述文档特征矢量以及所述查询确定性矢量投射到低维。3.根据权利要求1所述的方法,其中,所述中间表示形式是项的网格。4.根据权利要求1所述的方法,其中,所述项是单词。5.根据权利要求1所述的方法,其中,所述项是单词的组成部分。6.根据权利要求1所述的方法,其中,所述中间表示形式是项的n最佳列表。7.根据权利要求1所述的方法,其中,所述项是音素。8.根据权利要求1所述的方法,其中,所述文档描述了兴趣点,每一个兴趣点都具有位置,并进一步包括确定生成所述口头查询的用户的位置;确定所述用户的位置与匹配所述口头查询的每一个兴趣点之间的距离,以产生其他信息;以及根据所述距离给所述结果文档集分等级。9.根据权利要求1所述的...

【专利技术属性】
技术研发人员:彼得P沃尔夫约瑟夫K沃尔费尔比克沙拉玛克里施南
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1