检索装置和检索方法制造方法及图纸

技术编号:8626059 阅读:126 留言:0更新日期:2013-04-25 23:10
本发明专利技术提供一种检索装置和一种检索方法,其中,检索装置包括:分段模块,对已创建的倒排索引进行分段;查询模块,查询出用于检索的多个关键词对应的多个倒排索引;划分模块,根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分;并发检索模块,根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引;结果生成模块,根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索引,并取得对应的文档。根据本发明专利技术,通过对倒排索引进行分段,保证了后续的检索操作可以并发进行,有效地利用了并行处理技术,能够大幅提升检索的效率。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,具体而言,涉及一种检索装置和一种检索方法。
技术介绍
在文本索引领域,对倒排索引快速准确的进行检索是不可少的环节,其检索的准确性及检索的性能高低决定了搜索质量,并且极大的影响了用户体验。目前文本检索系统形式多样,但都是根据索引结构进行检索流程优化,按照索引方式基本都可以归结为两大类按照相关度对文档ID预排序首先在创建文档倒排索引的时候,进行部分索引词与文档ID的相关度计算,按照相关度计算结果对相同索引词下的文档ID进行排序;在文档检索期间,根据用户给定的检索词,取出相应索引词下的文档ID序列,由于文档ID序列是按照索引词的相关度进行预排序,检索程序需要记录下所有已读取的文档ID信息,以备稍后与其它索引词下的文档ID进行匹配;最终对完全与用户输入的索引词相匹配的结果进行进一步的相关度计算,给出最终结果。按照自然序对文档ID预排序在创建文档倒排索引的时候,对相同索引词下的文档ID,按照文档ID的自然序进行预排序;在文档检索期间,根据给定的检索词,同时取出不同索引词下的文档ID序列,按照多路归并算法对文档ID进行归并,得出与用户输入完全匹配的文档ID,最后进行相关度计算,给出最终结果。上述技术方案的缺陷在于基于相关度预排序索引进行的检索,由于预排序只是针对单个索引词进行,当多个索引词联合查询的时候,首先命中的结果,不一定就是排序最靠前的结果,而且由于是非文档ID自然有序,导致检索过程中需要保留大量临时数据缓冲,直接使检索性能以及准确度大幅下降。而基于文档ID自然序进行预排序的索引,在检索期间不要保留大量的临时缓冲数据,但由于前期没有进行相关度方面的计算,导致用户最需要的结果极有可能在文档ID序列的最后才能被检索到,这就需要对整个文档集合进行检索,这个特性对于超大数据集的检索系统来说是致命的缺陷,会导致随着数据集的线性增长使检索性能大幅下降。因此,需要一种能够克服现有技术中的缺陷的检索方式,在保持检索精确度的同时,能够有效地提升检索的效率,给用户以良好的检索体验。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种能够克服现有技术中的缺陷的检索方式,在保持检索精确度的同时,能够有效地提升检索的效率,给用户以良好的检索体验。有鉴于此,本专利技术提供一种检索装置,包括分段模块,对已创建的倒排索引进行分段;查询模块,查询出用于检索的多个关键词对应的多个倒排索引;划分模块,根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分;并发检索模块,根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引;结果生成模块,根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索引,并取得对应的文档。在该技术方案中,通过对倒排索引进行分段,保证了后续的检索操作可以并发进行,有效地利用了并行处理技术,能够大幅提升检索的效率。在上述技术方案中,优选地,还包括排序模块,将所述所有倒排索引按自然序进行排序。在该技术方案中,可以有效地对倒排索引进行管理,并且检索过程中不需要占用大量的缓存。在上述技术方案中,优选地,所述划分模块还根据所述多个部分的倒排索引,确定待使用的多个检索线程;所述并发检索模块还使用所述多个检索线程,同时对所述多个部分的倒排索引进行检索操作。在该技术方案中,通过多个检索线程,能大幅提升检索效率。在上述技术方案中,优选地,所述划分模块还根据所述倒排索引中的关键词的数量,对所述多个倒排索引进行划分。在该技术方案中,结合倒排索引的分段情况和关键词数量,能够合理设置并发检索操作的数量,既能保证检索效率,又不浪费资源。本专利技术还提供一种检索方法,包括步骤202,分段模块对已创建的倒排索引进行分段;步骤204,查询模块查询出用于检索的多个关键词对应的多个倒排索引;步骤206,划分模块根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分;步骤208,并发检索模块根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引;步骤210,结果生成模块根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索引,并取得对应的文档。在该技术方案中,通过对倒排索引进行分段,保证了后续的检索操作可以并发进行,有效地利用了并行处理技术,能够大幅提升检索的效率。在上述技术方案中,优选地,在所述步骤202之前,还包括排序模块将所述所有倒排索引按自然序进行排序。在该技术方案中,可以有效地对倒排索引进行管理,并且检索过程中不需要占用大量的缓存。在上述技术方案中,优选地,所述步骤208具体包括所述并发检索模块在所述多个部分中每部分的倒排索引中,对命中所述多个关键词的倒排索引进行相关度计算,根据计算得到的相关度的高低顺序,来选出作为所述检索结果的倒排索引。在该技术方案中,通过多个检索线程,能大幅提升检索效率。在上述技术方案中,优选地,所述步骤210具体包括所述结果生成模块根据所有作为所述检索结果的倒排索引所对应的相关度的高低顺序,来选出作为所述最终检索结果的倒排索引。在该技术方案中,通过相关度对比,可以保证检索的准确性。在上述技术方案中,优选地,在所述步骤206中,还包括所述划分模块根据所述多个部分的倒排索引,确定待使用的多个检索线程;在所述步骤208中,还包括所述并发检索模块使用所述多个检索线程,同时对所述多个部分的倒排索引进行检索操作。在该技术方案中,保证有足够的检索线程,用户实现并发检索。在上述技术方案中,优选地,在所述步骤206中,所述划分模块还根据所述倒排索引中的关键词的数量,对所述多个倒排索引进行划分。在该技术方案中,结合倒排索引的分段情况和关键词数量,能够合理设置并发检索操作的数量,既能保证检索效率,又不浪费资源。通过以上技术方案,可以实现一种检索装置和一种检索方法,在保持检索精确度的同时,使用现代计算机多核CPU的资源优势,并行处理单次检索请求,大幅提升单次及并发检索性能,给用户以良好的检索体验。附图说明图1是根据本专利技术的一个实施例的检索装置的框图;图2是根据本专利技术的一个实施例的检索方法的流程图;图3是根据本专利技术的一个实施例的检索方法的流程示意图;图4是根据本专利技术的一个实施例的检索方法中的索引机构的示意图。具体实施例方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术并不限于下面公开的具体实施例的限制。图1是根据本专利技术的一个实施例的检索装置的框图。如图1所示,本专利技术提供一种检索装置100,包括分段模块102,对已创建的倒排索引进行分段;查询模块104,查询出用于检索的多个关键词对应的多个倒排索引;划分模块106,根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分;并发检索模块108,根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引;结果生成模块110,根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索本文档来自技高网
...

【技术保护点】
一种检索装置,其特征在于,包括:分段模块,对已创建的倒排索引进行分段;查询模块,查询出用于检索的多个关键词对应的多个倒排索引;划分模块,根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分;并发检索模块,根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引;结果生成模块,根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索引,并取得对应的文档。

【技术特征摘要】
1.一种检索装置,其特征在于,包括 分段模块,对已创建的倒排索引进行分段; 查询模块,查询出用于检索的多个关键词对应的多个倒排索引; 划分模块,根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分; 并发检索模块,根据所述多个关键词,同时对所述多个部分的倒排索引进行检索,以从所述多个部分的倒排索引中分别得到作为检索结果的倒排索引; 结果生成模块,根据所有作为检索结果的倒排索引,取得作为最终检索结果的倒排索弓I,并取得对应的文档。2.根据权利要求1所述的检索装置,其特征在于,还包括 排序模块,将所述所有倒排索引按自然序进行排序。3.根据权利要求1所述的检索装置,其特征在于,所述划分模块还根据所述多个部分的倒排索引,确定待使用的多个检索线程; 所述并发检索模块还使用所述多个检索线程,同时对所述多个部分的倒排索引进行检索操作。4.根据权利要求1至3中任一项所述的检索装置,其特征在于,所述划分模块还根据所述倒排索引中的关键词的数量,对所述多个倒排索引进行划分。5.—种检索方法,其特征在于,包括 步骤202,分段模块对已创建的倒排索引进行分段; 步骤204,查询模块查询出用于检索的多个关键词对应的多个倒排索引; 步骤206,划分模块根据所述多个倒排索引的分段情况,将所述多个倒排索引划分为多个部分; 步骤208,并发检索模块根据所述多...

【专利技术属性】
技术研发人员:张宏利秦飞郭永福陈沛
申请(专利权)人:北京中搜网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1