一种高效的倒排索引结构及组织方法技术

技术编号:10135650 阅读:256 留言:0更新日期:2014-06-16 15:01
本发明专利技术公开了一种高效的倒排索引结构及组织方法。将记录倒排项和属性倒排项分开存储,减少信息冗余;采用分块方式对倒排索引进行存储,以数据库索引优化为切入点,综合利用链表和集中定位表的优势对倒排块进行管理,既有利于索引动态维护又便于SKIP技术下的随即访问;同时根据域间关联关系,采用了压缩技术,以达到尽量少的空间存储尽量多的信息量。所提供的倒排索引结构及组织方法,减少了存储空间、优化了访问时间,在一定程度解决了倒排索引优化问题,能够实现海量数据的有效管理。

【技术实现步骤摘要】
一种高效倒排索引组织方法
本专利技术涉及信息检索技术,具体地说,涉及全文检索系统中使用的高效倒排索引组织方法。
技术介绍
大数据时代的网络环境中,信息量和用户量呈爆炸式增长,给大规模信息检索系统准确高效的服务带来了压力和挑战。倒排索引是信息检索的核心,其存储结构及组织方式对信息检索性能的提升有很大影响。在改进检索算法的同时,人们也在努力优化倒排索引结构及其组织方式。目前国内外针对倒排索引优化的研究,主要从以下三方面展开:(1)通过压缩技术减少索引在外存上的体积;(2)对倒排表内容的组织方式进行优化,减少需要访问的倒排表内容;(3)对倒排表的磁盘存储结构进行管理,尽量减少磁盘的IO次数。但现有的成果包括压缩技术、倒排索引组织方式及存储结构还不成熟,很难适应大数据时代信息检索系统信息量大、快速响应精而准的需求,因此本专利技术提出了一种融合压缩技术的高效的倒排索引结构及组织方法,以解决当前倒排索引优化问题,实现海量数据的有效管理。
技术实现思路
本专利技术要解决的技术问题是提供一种优化存储空间、精简读取时间的倒排索引结构及组织方法。为解决目前信息检索系统信息量大、快速响应精而准需求方面的技术问题,本专利技术提供了一种高效的倒排索引结构,该结构包括:S101倒排索引由倒排项组成,倒排项包括记录倒排项和属性倒排项两种类型,它们分开存储以减少信息冗余,同时在逻辑上倒排索引也就被分为记录倒排索引和属性倒排索引;S102记录倒排索引由记录倒排项组成,“记录倒排项”是由“记录号”独立形成的,包括“记录号”和“链接器”;S103“记录号”是一个字段值或全文数据中的词在数据库中出现时所在的记录;S104“链接器”的具体内容取决于不同的组织方式,可以是地址指针、偏移量、或者属性倒排项的个数等,其功能是能快速定位和读取一个词在该记录中的所有属性项;S105属性倒排索引由属性倒排项构成,“属性倒排项”是由“位置属性”和“格式属性”组成;106“位置属性”是全文数据中的词在当前记录中出现的位置之一,位置属性分三个层次“段落、句子、位置”;S107“格式属性”是全文数据中的词在出现位置所具有的其它格式信息(如NativeXML索引);本专利技术还提供一种高效的倒排索引组织方法,该方法包括:201倒排索引在文件中采用分块的方式进行组织存储,倒排块综合采用链表和集中定位表两种方式进行管理,使得倒排索引既便于动态维护又有利于SKIP技术下的随机访问;为提高数据加载效率,同时有利于数据随机访问,以数据库索引的优化作为临界点来选择倒排块的管理方式:优化后的倒排索引采用集中定位表进行管理,而优化后新加载的数据所对应的倒排索引仍然用链表管理,直到下一次数据库索引的优化;S202在整个倒排索引中,将集中定位表看成是一个特殊的链表节点,采用标志位机制来区分是常规的链表节点,还是集中定位表;属性倒排项数据块放在记录倒排项数据块的后面,组合存储在同一文件的同一倒排项数据块中;S203倒排链表块由“链接器”和“倒排项数据块”组成,“链接器”的基本作用是指示下一倒排链表块或集中定位表的首地址,其中含1个标志位指明下一地址指向的是倒排链表块还是集中定位表;S204集中定位表由“表头”和“表项”组成,由于倒排段是分块存储的,“表头”的主要功能是给出下一倒排段的集中定位表的地址;最后一个倒排段公用,用于存放精确结果集与非精确结果集的检索算法,因此,每个倒排段的表头均需存放最后一个倒排段的集中定位表的地址,以便精确结果集的检索算法能够快速地定位到这个段;S205集中定位表管理的倒排块都是经过优化的,一个表项相对于一个倒排块,所占空间很小,直接使用自然的数据类型表示表项各个域;与倒排链表块“链接器”一样,“地址”对于每个表项是不可少的域,同时“最大记录号”和“最小记录号”域不能省略,这样可以避免从倒排项数据块中获取“最大记录号”和“最小记录号”,以减少不必要的操作;此外,集中定位表中的记录倒排项按记录号进行分页存储,因此,每个“表项”还需要一个记录号页码表的长度,便于快速定位、查找记录号,页码表之后是记录号偏移表的起始地址,“页码表长度”域中1位标志位,区分倒排块是否分页,不分页时,低位用于表示属性偏移量,反之则表示记录号偏移量;S206倒排链表块中倒排块与集中定位表所管理的倒排块在存储方式上有所不同,后者采用经过了优化的分页存储方式,前者依然采用最简单的存储方式,因而二者对应的记录倒排项的逻辑结构也不相同;S207倒排链表块中,记录倒排项由“记录号”和“链接器”组成。一个记录的所有属性倒排项以及记录之间的属性倒排项在属性倒排项数据块中都是连续存放的,“链接器”的作用是指示该记录的所有属性倒排项在属性倒排项数据块中的起始位置;S208集中定位表中,记录倒排项在存储上分为“记录号页码表”表项和“记录号偏移表”表项。每个“记录号页码表”存储一个页的记录号页码以及所对应的记录号偏移表的定位信息。“记录号偏移表”由“记录号偏移”和“属性偏移量”两个域组成,在集中定位表“表项”的“页码表长度”域中进行标记组织;S209属性倒排项所含子项多、一些子项可选、子项个数不固定,共有8种具体的形式,分别为:<位置>、<句子,位置>、<段落,位置>、<段落,句子,位置>、<位置,格式>、<句子,位置,格式>、<段落,位置,格式>、<段落,句子,位置,格式>;“位置属性”域采用2个字节表示;属性倒排项可以包含格式属性,格式属性对用着NariveXML索引,是一个XML数据的结点号,用四个字节表示,为了支持检索加权,将其中一个字节存储权重(最多支持256种权重),剩下的三个字节用来存储原来的结点号。本专利技术技术方案提供的高效倒排索引结构及组织方法,将倒排索引中倒排项分为记录倒排项和属性倒排项进行存储,以减少信息冗余;倒排索引以分块的方式组织存储,综合链表和集中定位表的优势,对倒排块进行管理,使得倒排索引既便于动态维护又有利于SKIP技术下的随机访问,同时在数据存储时采用了一定的压缩技术,以实现在尽量少的空间存储尽量多的信息;减少了数据存储空间,提高了数据索引效率。附图说明图1为本专利技术实施例提供的一种高效的倒排索引结构示意图。图2为本专利技术实施例提供的一种高效倒排索引组织框架图。图3为本专利技术实施例提供的集中定位表中倒排块的组织架构图。具体实施方式为解决海量信息时代数据索引、优化问题,本专利技术实施例提供的高效倒排索引结构及组织方法,从存储空间和读取时间两方面对倒排索引进行优化,将倒排项分为记录倒排项和属性倒排项,减少信息冗余,倒排索引以分块方式进行组织存储,综合采用链表和集中定位表的优势进行管理,既便于动态维护又有利于随机访问,可解决倒排索引优化问题。为使本专利技术实施例的目的、技术方法、及优点更加清楚明白,以下结合附图对本专利技术实施例提供的技术方案进行详细说明。如图1所示为本专利技术实施例中的高效倒排索引结构示意图,检索系统由词表定位记录倒排项,“记录倒排项”中包含“记录号”和“链接器”,通过“链接器”定位属性倒排项,给出该词在记录中所有属性信息,同时属性倒排项还记录了记录之间的所有属性信息,“属性倒排项”包含“位置属性”和“本文档来自技高网...
一种高效的倒排索引结构及组织方法

【技术保护点】
一种高效倒排索引结构,其特征在于,该倒排索引由倒排项组成,倒排项被拆分成记录倒排项和属性倒排项,由此倒排索引被分为记录倒排索引和属性倒排索引。

【技术特征摘要】
1.一种高效倒排索引组织方法,其特征在于,倒排索引由倒排项组成,倒排项被拆分成记录倒排项和属性倒排项,属性倒排项数据块放在记录倒排项数据块的后面,组合存储在同一文件的同一倒排项数据块中,构成倒排块,由此倒排索引被分为记录倒排索引和属性倒排索引,其中,记录倒排索引由记录倒排项组成,“记录倒排项”由“记录号”独立形成,包括“记录号”和“链接器”;“记录号”是一个字段值或全文数据库中的词在数据库中出现时所在的记录;“链接器”的具体内容取决于不同的组织方式,其功能是能快速定位和读取一个词在该记录中的所有属性项;属性倒排索引由属性倒排项构成,“属性倒排项”由“位置属性”和“格式属性”组成;“位置属性”是全文数据中的词在当前记录中出现的位置之一,位置属性分为三个层次“段落、句子、位置”;“格式属性”是全文数据中的词在出现位置所具有的其它格式信息;因此,倒排索引采用分块方式进行组织存储,倒排块综合采用链表和集中定位表进行管理。2.根据权利要求1所述的高效倒排索引组织方法,其特征在于,以数据库索引的优化为临界点选择倒排块的管理方式,集中定位表被看成是一个特殊的链表节点,采用标志位机制来区分。3.根据权利要求1或2所述的高效倒排索引组织方法,其特征在于,“链接器”和“倒排项数据块”组成倒排链表块,“链接器”的基本作用是指示下一倒排块或集中定位表的首地址,其中含1个标志位指明下一地址指向的是倒排链表还是集中定位表。4.根据权利要求1或2所述的高效倒排索引组织方法,其特征在于,集中定位表由“表头”和“表项”组成,倒排段分块存储,表项按记录号进行分页。5.根据权利要求4所述的高效倒排索引组织方法,其特征在于,集中...

【专利技术属性】
技术研发人员:王弘蔚
申请(专利权)人:北京拓尔思信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1