数据检索方法及装置制造方法及图纸

技术编号:5413113 阅读:225 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种数据检索方法及装置。该数据检索方法包括:获取用户输入的检索关键词,根据检索关键词查询词语索引模块,以获取词语索引模块中预置的与检索关键词对应的词语标识信息;根据词语标识信息查询反向索引模块,以获取反向索引模块中预置的与词语标识信息对应的压缩存储的文档信息;对文档信息进行解压缩,以获取与检索关键词相关的文档的文档标识信息;根据检索关键词和文档标识信息查询词语位置索引模块,以获取所述检索关键词在文档标识信息对应的文档中的位置信息;根据文档标识信息及所述位置信息显示文档。本发明专利技术的数据检索方法及装置能够降低检索系统的硬件资源消耗并提高检索效率。

【技术实现步骤摘要】

本专利技术涉及一种数据处理方法及装置,尤其涉及一种数据检索方法及装置
技术介绍
全文检索是极为常用的一种通过网络获取所需信息的方式。全文检索一般是 利用到排索引技术实现检索,每进行一次查询,都需要根据检索的关键词来寻找对应的 文档,并根据搜索表达式进行一系列运算,这些操作都会产生一定的I/O消耗和CPU消 耗,并且单次查询的资源消耗与多次查询的资源消耗是直接相关的。随着网络访问量的 增大,这种资源消耗将直接影响网络搜索系统的承载量,即单次查询的资源消耗越小, 网络搜索系统的承载量越大。当整个网络系统需面对每天数千万次、甚至是上亿次的访 问时,查询效率和资源消耗对于整个网络搜索系统的硬件资源消耗、响应速度及承载量 起着至关重要的作用。
技术实现思路
本专利技术提供一种数据检索方法及装置,用以实现高检索效率、低资源消耗的数 据检索。本专利技术提供的数据检索方法,包括获取用户输入的检索关键词,根据所述检 索关键词查询词语索引模块,以获取所述词语索引模块中预置的与所述检索关键词对应 的词语标识信息;根据所述词语标识信息查询反向索引模块,以获取所述反向索引模块中预置的 与所述词语标识信息对应的压缩存储的文档信息;对所述文档信息进行解压缩,以获取与所述检索关键词相关的文档的文档标识 fn息;根据所述检索关键词和所述文档标识信息查询词语位置索引模块,以获取所述 检索关键词在所述文档标识信息对应的文档中的位置信息;根据所述文档标识信息及所述位置信息显示所述文档。本专利技术提供的数据检索装置,包括获取模块、词语索引模块、反向索引模块、 词语位置索引模块和显示模块,其中所述获取模块与所述词语索引模块、反向索引模块、词语位置索引模块和显示 模块连接,用于获取用户输入的检索关键词,根据所述检索关键词查询词语索引模块, 以获取所述词语索引模块中预置的与所述检索关键词对应的词语标识信息;根据所述词语标识信息查询反向索引模块,以获取所述反向索引模块中预置的 与所述词语标识信息对应的压缩存储的文档信息;对所述文档信息进行解压缩,以获取与所述检索关键词相关的文档的文档标识 fn息;根据所述检索关键词和所述文档标识信息查询词语位置索引模块,以获取所述检索关键词在所述文档标识信息对应的文档中的位置信息;将对应于所述文档标识信息的所述文档及所述信息参数发送给所述显示模块, 以根据所述文档标识信息及所述位置信息显示所述文档。本专利技术的数据检索方法及装置,由于通过查询到对应于检索关键词的词语标识 信息,并进一步通过该词语标识信息从反向索引模块中查询到对应的文档信息,从而仅 对该部分文档信息进行解压缩,即可获取实现该检索所需文档标识信息。既能够节约存 储空间,又能够极大地缩短处理时间,从而提高检索效率。附图说明图1为本专利技术数据检索方法的流程图。图2为本专利技术数据检索方法中采用分组压缩方式进行数据压缩的示意图。图3为本专利技术数据检索装置的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图,对本专利技术的 技术方案进行清楚、完整地描述。图1为本专利技术数据检索方法的流程图。如图1所示,该数据检索方法包括步骤S100,获取用户输入的检索关键词,根据检索关键词查询词语索引模块, 以获取词语索引模块中预置的与检索关键词对应的词语标识信息;其中,词语索引模块中存储有预置的词语列表,包括词语的循环冗余校验 (CRC)值,词语标识信息,与各词语相关的文档数量及该词语在所有文档中出现的总次 数信息。该词语索引模块中存储的文件以.pji作为文件扩展名。步骤S200,根据词语标识信息查询反向索引模块,以获取反向索引模块中预置 的与词语标识信息对应的压缩存储的文档信息;其中,反向索引模块中存储有对应于词语索引模块中各词语的反向索引数据, 其包括与各词语相关的文档标识信息(例如包括文档ID,文档的作者及文档的分类信息 等),该词语在该文档中所属字段(例如,该词语包括在该文档的标题、摘要或正文等, 该所属字段是用四个字节的bit位表示该词语出现在哪个字段,第N个bit位表示该关键 词是否出现在第N个字段,故该所属字段可用于表示32个字段的信息),以及该词语在 该文档中所出现的次数(保存该次数能够避免重复计算,以提高性能和检索速度)。该反 向索引模块中存储的文件以.pjd作为文件扩展名。步骤S300,对文档信息进行解压缩,以获取与所述检索关键词相关的文档的文 档标识信息;其中,由于该反向索引模块中存储的数据量较为庞大,为节约存储空间,将文 档标识信息压缩存储。并且,在利用该反向索引模块进行检索时,并不一次性地将全部 文档信息进行解压缩,而是在根据步骤S100中获取的词语标识信息,查询到该反向索引 模块中用于存储所需文档信息的存储单元地址,仅对该存储单元地址所存储的内容进行 解压缩,从而获取所需的文档标识信息。步骤S400,根据检索关键词和文档标识信息查询词语位置索引模块,以获取检索关键词在文档标识信息对应的文档中的位置信息;其中,词语位置索引模块中存储有各文档对应的所有词语出现的位置,具体包 括词语出现在文档的哪个字段、以及字段中的哪个具体位置。对各词语的位置信息的比 特(bit)位可按照如下分配词语在字段中的位置长度23bit,bit位1 23;是否是该字段中最后一次出现长度lbit,bit位24;字段ID:长度为8bit的整型数,用该8bit整型数来表示32个字段中的任意一 个。该词语位置索引模块中存储的文件以.pjp作为文件扩展名。步骤S500,根据文档标识信息及位置信息显示文档。其中,获取文档标识信息及检索关键词在该文档中的位置信息后,根据这些信 息查询文档数据库(可以为任意形式的、存储文档资源的数据库或系统),以获取整篇文 档或包含检索关键词的部分文档,并返回给检索用户。根据上述实施例的数据检索方法,由于通过从词语索引模块中查询到对应于检 索关键词的词语标识信息,并通过该词语标识信息从反向索引模块中查询到对应的文档 信息,从而仅对该部分文档信息进行解压缩,即可获取实现该检索所需文档标识信息。 一方面,能够节约存储空间,另一方面,其相对于对全部文档信息进行解压缩,能够极 大地缩短处理时间,从而提高检索效率。进一步地,在上述实施例的数据检索方法中,检索关键词对应的词语标识信息 为反向索引模块中用于存储与该检索关键词相关的文档信息的起始位置。该起始位置 即为反向索引模块中用于存储对应于该检索关键词的首个压缩的文档信息的存储单元地 址。读取从该存储单元地址开始的连续数个存储单元的内容,直至读取到用于标识对应 于该检索关键词的结束位为止,该结束位例如为所有值均为0的字节。进一步地,对文档信息进行解压缩,以获取与检索关键词相关的文档的文档标 识信息的步骤之后还包括从文档信息中获取检索关键词在各文档中出现的次数;相应 地,根据文档标识信息及位置信息显示文档的步骤中还包括显示检索关键词在文档中出 现的次数。根据上述实施例的数据检索方法,能够提供给检索用户更详细的信息,以方便 用户根据各文档中该检索关键词出现的次数来选择性地进行文档浏览。进一步地,获取用户输入的检索关键词,根据检索关键词查询词语索引模块, 以从词语索引模块中预置的与检索关键词对应的词语标识信息的步骤本文档来自技高网...

【技术保护点】
一种数据检索方法,其特征在于,包括:获取用户输入的检索关键词,根据所述检索关键词查询词语索引模块,以获取所述词语索引模块中预置的与所述检索关键词对应的词语标识信息;根据所述词语标识信息查询反向索引模块,以获取所述反向索引模块中预置的与所述词语标识信息对应的压缩存储的文档信息;对所述文档信息进行解压缩,以获取与所述检索关键词相关的文档的文档标识信息;根据所述检索关键词和所述文档标识信息查询词语位置索引模块,以获取所述检索关键词在所述文档标识信息对应的文档中的位置信息;根据所述文档标识信息及所述位置信息显示所述文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:石柱国余孟春谢清禄王堃陈新宾
申请(专利权)人:青岛普加智能信息有限公司
类型:发明
国别省市:95[中国|青岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1