一种索引文件及索引文件建立方法技术

技术编号:4092192 阅读:383 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种索引文件,所述索引文件包括存储索引词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所述频率模块。

【技术实现步骤摘要】

本专利技术涉及一种索引文件及索引文件的建立方法,尤其涉及一种用于保存全文检 索的索引文件及索引文件的建立方法。
技术介绍
网络改变了人们获取信息的方式,随着网络的发展,人们的要求不断提高,互联网 搜索即全文检索成了大多人离不开的获取信息的方式;也正是为了满足这种不断提高的需 求,全文检索技术也得到了不断提高。对于全文检索来说,除了索引建立算法外,一个很重 要的部分就是索引信息的保存,即索引文件如何保存更高效。目前一些开源检索系统,有很优秀的地方,但某些不足在应用时也是不可忽略的, 比如clucene,在索引的文件的组织、保存、使用简易性上都有明显的长处,但其索引文件的 结构并不怎么适合频繁更新,当系统需要频繁对索引文件进行更新,clucene就不能很好的 满足要求了。
技术实现思路
本专利技术解决的技术问题是构建一种索引文件及索引文件的建立方法,克服现有 技术在全文检索过程中,空闲空间未被充分利用,索引文件频繁更新时效率低的问题。本专利技术的技术方案是构建一种索引文件,所述索引文件包括存储索引词的索引 词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文 件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据 索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信 息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中 索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的 文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模 块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放 位置指针信息的指针链接所述频率模块。本专利技术的进一步技术方案是所述频率模块包括在索引词删除时标记的删除标记。本专利技术的进一步技术方案是所述索引词模块包括索引词模块的版本信息。本专利技术的进一步技术方案是所述索引词模块包括索引词的数量信息。本专利技术的进一步技术方案是所述索引词模块包括空闲块。本专利技术的进一步技术方案是所述词源文件模块包括空闲块。本专利技术的技术方案是提供一种索引文件建立方法,所述索引文件包括存储索引 词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息 的词源文件模块、存储含有索引词文档信息的文档信息模块,包括如下步骤分词及索引将预检索的文件按词语划分并根据倒排索引算法整理;建立索引文件所述索引词模块包括索引词信息、根据索引词信息链接到频率模 块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词 在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述 频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源 文件的文档指针;建立链接所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块 通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链 接所述频率模块。本专利技术的进一步技术方案是在建立索引文件步骤中,所述频率模块包括在索引 词删除时标记的删除标记。本专利技术的进一步技术方案是在建立索引文件步骤中,所述索引词模块包括索引 词模块的版本信息。本专利技术的进一步技术方案是所述索引词模块包括空闲块。本专利技术的技术效果是本专利技术一种索引文件构建了存储索引词的索引词模块、存 储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存 储含有索引词文档信息的文档信息模块。本专利技术一种索引文件通过链式结构可保证空闲 空间可得重复利用,避免移动文件数据,从而提高索引文件更新效率,降低索引文件更新成 本。附图说明图1为本专利技术的结构示意图。图2为本专利技术删除文件时索引文件的结构示意图。图3为本专利技术增加文件时索引文件的结构示意图。图4为本专利技术的流程图。具体实施例方式下面结合具体实施例,对本专利技术技术方案进一步说明。如图1所示,本专利技术的具体实施方式是构建一种索引文件,所述索引文件包括存 储索引词的索引词模块2、存储索引词出现频率的频率模块1、存储索引词所在文档中所有 词的信息的词源文件模块3、存储含有索引词文档信息的文档信息模块4,所述索引词模块 2包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块1包括索引 词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源 文件模块3包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档 信息模块4包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块 2通过词频指针链接所述频率模块1,所述文档信息模块4通过文档指针链接所述词源文件 3模块,所述词源文件模块3通过存放位置指针信息的指针链接所述频率模块1。如图1所示,本专利技术的具体实施过程如下先将文件内容进行索引词划分,然后根 据倒排索引算法整理好,每一个索引词都设置一个编号,以下简称为“词id”。所述索引词模块2包括索引词信息,这里索引词信息为“词id”。还包括根据索引4词信息链接到频率模块的词频指针,所述词频指针为所述索引词链接到频率模块1相应位 置的指针。本专利技术具体实施例中,所述索引词模块1还包括相应索引词所在的文档数,即在 几个文档中出现过。所述索引词模块1还包括索引词模块的版本信息,以便于更新。所述 索引词模块1还包括索引词的数量,以及空闲块,所述空闲块采用指针进行链接,形成一个 链方便插入操作时快速定位。所述频率模块1包括索引词所在文档在所述文档信息模块4中的编号及索引词在 所述词源文件模块3的词源文件中的频率。这里索引词所在文档在所述文档信息模块4中 的编号即图1中的“文档id”,索引词在所述词源文件模块3的词源文件中的频率,也即是 出现的次数。所述频率模块1还包括在索引词删除时标记的删除标记,删除标记是为了复 用,从而达到较少索引文件更新的成本。所述频率模块1还包括空闲块,所述空闲块方便进 行插入操。所述词源文件模块3包括词源文件中索引词的信息及链接所述频率模块的存放 位置指针,所述索引词的信息为索引词的“词id”。所述词源文件模块3描述一个文件包含 词的信息,当要删除某个文档时,从此文件中可找到所包含的词在频率文件中的位置,所以 可以实现快速删除,从而提高删除文档引起索引文件更新时的效率。所述文档信息模块4包括含有索引词的文件信息及链接所述词源文件的文档指 针。所述文档信息模块4是用来维护源文件信息的,在所述频率模块1中只有词源文件位 置,根据词源文件位置都可以在此文件中找到相应的文档信息。所述索引词模块2通过词频指针链接所述频率模块1,所述文档信息模块4通过文 档指针链接所述词源文件模块3,所述词源文件模块3通过存放位置指针信息的指针链接 所述频率模块1。本专利技术索引文件由于是一个链条的形式,那么可以不断增加,已满足索引内容不 断增加的需求。以下具体举例进行说明假设有三个文档,文档id分别为1,2,3 文档 id = 1 的内容为I will treat you。文档 id = 2 的内容为You know what I mean ?文档id = 3 的内容为Yes,I do本文档来自技高网...

【技术保护点】
一种索引文件,其特征在于,所述索引文件包括存储索引词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所述频率模块。

【技术特征摘要】
一种索引文件,其特征在于,所述索引文件包括存储索引词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所述频率模块。2.根据权利要求1所述索引文件,其特征在于,所述频率模块包括在索引词删除时标 记的删除标记。3.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括索引词模块的版本fe息。4.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括索引词的数量信肩、ο5.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括空闲块。6.根据权利要求1所述索引文件,其特征在于,所述词源文件模块包括空闲块。7.一种索引文件建...

【专利技术属性】
技术研发人员:杨良志
申请(专利权)人:深圳市彩讯科技有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1