用于网络文件的多维索引的方法和设备技术

技术编号:6959623 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

【技术实现步骤摘要】

本专利技术涉及文档检索
,特别涉及一种用于网络文件的多维索引的方法和设备
技术介绍
网络文档不像纯文本一样结构单一,丰富的应用赋予了其更多的特征,如标题、正文、作者、时间、站点、类型、附加评测值、地点、语言类型、编码等,对这些特征的多条件高效率检索是网络文档检索的一个重要要求。常规的方法都是对各个特征分别检索,然后把得到的检索子集进行合并。这种方法在文档维度和文档规模不断增大时效率会不断降低。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分,也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念,以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形,本专利技术的目的是提供一种用于网络文件的多维索引的方法和设备,其能够克服上述现有技术的缺点和不足,以提高检索的效率。为了实现上述目的,根据本专利技术的一方面,提供了一种为文档建立索引的方法,其包括如下步骤识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、 次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。根据本专利技术的另一方面,还提供了一种对文档进行检索的方法,其包括如下步骤 将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;根据识别的所述维度将用户所输入的特征构造为具有复合索引的特征检索结构;以及在执行根据本专利技术的为文档建立索引的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。根据本专利技术的另一方面,还提供了一种为文档建立索引的设备,其包括识别装置,用于识别构成所述文档的特征;分类装置,用于将所述识别装置所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一;主维度与次维度索引装置,用于针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;附加维度索引装置,用于针对所述附加维度的特征建立倒排索引;复合索引装置,用于将通过所述主维度与次维度索引装置针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与通过所述附加维度索引装置针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及索引储存库,用于存储通过所述复合索引装置得到的复合索引。根据本专利技术的另一方面,还提供了一种对文档进行检索的设备,其包括输入装置,用于接收用户所输入的特征;识别装置,用于将所述输入装置接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;构造装置,用于根据识别的所述维度将所述输入装置接收的特征构造为具有复合索引的特征检索结构;以及检索装置,用于在根据本专利技术的为文档建立索引的设备中的索引储存库中进行检索,以检索出具有所述构造装置构造的特征检索结构的文档。根据本专利技术的另一方面,还提供了用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序产品。根据本专利技术的另一方面,还提供了计算机可读介质,其上记录有用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序代码。在本专利技术的上述技术方案中,同时利用多个属性作为检索条件,以减少一次检索读取索引数据的范围,因此可以提高检索的效率;用复合索引策略和结构平衡了索引的时间和空间效率;并且由于附属维度的存在,使维度空间有良好的扩展性。附图说明本专利技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1是示出根据本专利技术实施例的为文档建立索引的方法的流程图;图2是示出作为根据本专利技术实施例的具体例子的正文索引的B树组织方式的示图;图3是示出作为根据本专利技术实施例的具体例子的多维索引库的示图;图4是示出根据本专利技术实施例的对文档进行检索的方法的流程图;图5是示出根据本专利技术实施例的为文档建立索引的设备的框图;以及图6是示出根据本专利技术实施例的对文档进行检索的设备的框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本专利技术实施例的理解。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其它细节。本专利技术设计了一种在文档维度和文档规模不断增大的条件下的文档表示和索引方法。多条件检索在网络文档检索中的应用日益增多,为提高多条件检索的效率,本专利技术将多维空间引入文档表示,使构成文档的某一属性本身也具有多维特征,并在此基础上将文档的构成划分为主维度、次维度和附加维度,分别构造传统索引和多维索引,它们之间以布尔方式结合,以此在提高多维检索效率的同时平衡了多维索引的空间开销。为了进一步描述本专利技术的优选实施例,在下文中首先描述定义文档的表示和索引的实现。文档D是一个多维向量D = O1, θ2,...θη>。在传统的信息检索中,θ^ (l^i^n)表示文档中出现的词。在根据本专利技术的模型中,文档是多个特征的线性组合D = <巧01, 92,...^011>,其中 ,(1彡i彡η)表示特征θ (1 ^ i ^ η)在文档中的权重,θ ρ (1 < i < η)是文档的一个特征。该特征θ ρ (1 < i < η)本身又可以具有多维特征,它可以表示为一个多维线性函数Qi =〈巧!^, !^……^!^,其中^,(1彡j彡k)表示特征Ir (1彡j彡k)在θ ρ (1彡i彡η)中的权重,Tj, (1彡j彡k)是θ ρ (1彡i彡η) 的一个特征。也就是说,文档D是一个包含η个特征的多维对象,其中的每一维仍然可以是一个多维对象。在这个文档表示定义中引入了多维空间的特征,该空间中的每一维仍可以是一个多维空间。查询Q是一个特殊的文档,一个包含q个查询条件的查询可以表示为Q = W1 θ ” W2 θ 2,... Wq θ ,其中符号的含义和文档表示公式中的相同。传统的文档索引通常都在一维空间本文档来自技高网...

【技术保护点】
1.一种为文档建立索引的方法,包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛付江王主龙孟遥于浩贾文杰何楠贾晓建王新文
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1