一种多段索引并行检索与算分的检索方法、装置及设备制造方法及图纸

技术编号:19177284 阅读:26 留言:0更新日期:2018-10-17 00:21
本发明专利技术涉及一种多段索引并行检索与算分的检索方法、装置及设备,属于搜索引擎技术领域。所述多段索引并行检索与算分的检索方法,应用于多个索引段的检索与算分,所述多个索引段属于同一片单片索引,每个所述索引段对应一个独立的检索模块;所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。由于各个检索模块之间可以并行运行,且检索模块与算分模块之间也可以同步并行,这样,可以充分利用多核的优势,快速完成检索与算分,大幅提高了检索效率,并最终改善用户的体验。

A retrieval method, device and equipment for multi index parallel retrieval and computation

The invention relates to a retrieval method, device and equipment for parallel retrieval and calculation of multi-segment indexes, belonging to the technical field of search engines. The multi-segment index parallel retrieval and scoring retrieval method is applied to the retrieval and scoring of a plurality of index segments, the plurality of index segments belong to the same monolithic index, and each index segment corresponds to a separate retrieval module. The method comprises: the calculation module obtains the document information retrieved by each retrieval module. The arithmetic sub-module obtains the arithmetic sub-result corresponding to each document information according to the preset arithmetic sub-rule. Because each retrieval module can run in parallel, and the retrieval module and calculation module can be synchronized and parallel, so we can make full use of the advantages of multi-core, quickly complete the retrieval and calculation, greatly improve the retrieval efficiency, and ultimately improve the user experience.

【技术实现步骤摘要】
一种多段索引并行检索与算分的检索方法、装置及设备
本专利技术属于搜索引擎
,具体涉及一种多段索引并行检索与算分的检索方法、装置及设备。
技术介绍
随着硬件技术的高速发展,单机处理能力得到大幅提升。SSD固态硬盘容量达到了TB级别,内存容量和CPU核数均翻倍增长,网卡也从千兆网卡升级成万兆网卡。如何有效利用这些硬件资源,提升检索性能,是当前搜索引擎急需解决的课题。单机内存容量和SSD固态硬盘容量的快速增长,意味着单机可以容纳更大规模的索引。网络带宽提升一个量级,使得节点之间可以传递更大的数据量,为单机返回更多结果提供了前提条件。然而,单机计算能力的提升,是靠CPU核数扩展得以提升,而单核CPU频率并无变化。受CPU频率限制,单线程计算能力并无改善。那么,在单机索引量增加之后,传统的串行检索与算分机制,必然会导致检索延迟大幅提升,并最终影响到用户体验。为降低因索引量增加导致的检索延迟,本提案提出一种多索引段并行检索与算分的方案。该方案可以充分利用多核的优势,能有效避免因为索引量增加而导致单机检索延迟增加。
技术实现思路
鉴于此,本专利技术的目的在于提供一种多段索引并行检索与算分的检索方法、装置及设备,以有效地改善上述问题。本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供了一种多段索引并行检索与算分的检索方法,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块。所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。第二方面,本专利技术实施例还提供了一种多段索引并行检索与算分的检索装置,包括:检索模块和算分模块,所述检索模块,用于检索文档信息,并获取检索到的文档信息;所述算分模块,用于获取每个所述检索模块检索到的文档信息;以及,所述算分模块,还用于根据预设的算分规则获得每个所述文档信息对应的算分结果。第三方面,本专利技术实施例还提供了一种多段索引并行检索与算分的检索设备,包括:存储器、处理器和多段索引并行检索与算分的检索装置,所述检索装置存储于所述存储器中并包括一个或多个由所述处理器执行的软件功能模组,所述检索装置包括:检索模块和算分模块,所述检索模块,用于检索文档信息,并获取检索到的文档信息;所述算分模块,用于获取每个所述检索模块检索到的文档信息;以及,所述算分模块,还用于根据预设的算分规则获得每个所述文档信息对应的算分结果。与现有技术相比,本专利技术实施例提供了一种多段索引并行检索与算分的检索方法、装置及设备。该方法应用于多个索引段的检索与算分,每个所述索引段对应一个独立的检索模块,每个检索模块均对应一个检索线程,各个检索线程独立进行检索,相互之间不存在数据共享,避免了因线程之间的同步带来的性能损耗,大幅降低了检索延迟。算分模块获取每个所述检索模块检索到的文档信息,并根据预设的算分规则对获得的所述文档信息进行算分,其中算分模块对应一个算分线程。由于各个检索线程之间可以并行运行,且检索线程与算分线程之间也可以同步并行,这样,可以充分利用多核的优势,快速完成检索与算分,大幅提高了检索效率,并最终改善用户的体验。本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本专利技术的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本专利技术的主旨。图1示出了本专利技术实施例提供的一种多段索引并行检索与算分的检索设备的结构框图。图2示出了本专利技术实施例提供的一种多段索引并行检索与算分的检索方法的流程图。图3示出了本专利技术实施例提供的算分模块获取每个所述缓存空间所存储的文档信息的流程图。图4示出了本专利技术实施例提供的算分模块获取缓存空间中的文档信息时的读取位置变化的示意图。图5示出了本专利技术实施例提供的算分模块读取每个检索模块的缓存空间的读取流程示意图。图6示出了本专利技术实施例提供的另一种多段索引并行检索与算分的检索方法的流程图。图7示出了本专利技术实施例提供的一种检索模块检索时的流程图。图8示出了本专利技术实施例提供的图7中步骤S303的流程图。图9示出了本专利技术实施例提供的检索模块将判定为合法的文档信息写入与之对应的缓存空间时的写入位置变化的示意图。图10示出了本专利技术实施例提供的检索模块将判定为合法文档信息写入对应的缓存空间的写入流程示意图。图11示出了本专利技术实施例提供的多个检索模块并行检索及与算分模块并发执行的示意图。图12示出了本专利技术实施例提供的一种多段索引并行检索与算分的检索装置的结构框图。图13示出了本专利技术实施例提供的图12中的检索模块结构框图。图14示出了本专利技术实施例提供的图12中的算分模块结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。如图1所示,图1示出了一种应用于本专利技术实施例中的多段索引并行检索与算分的检索设备100的结构框图。所述多段索引并行检索与算分的检索设备100包括:存储器120、存储控制器130和处理器140。所述存储器120、存储控制器130、处理器140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述多段索引并行检索与算分的检索装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述多段索引并行检索与算分的检索设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块,例如所述多段索引并行检索与算分的检索装置110包括的软件功能模块或计算机程序。其中,存储器120可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(Erasable本文档来自技高网...

【技术保护点】
1.一种多段索引并行检索与算分的检索方法,其特征在于,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块;所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。

【技术特征摘要】
1.一种多段索引并行检索与算分的检索方法,其特征在于,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块;所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。2.根据权利要求1所述的方法,其特征在于,每个所述索引段还对应一个缓存空间,所述缓存空间用于存储与该缓存空间对应的检索模块检索到的文档信息;所述获取每个所述检索模块检索到的文档信息的步骤包括:所述算分模块获取每个所述缓存空间所存储的文档信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:每个所述检索模块对检索到的文档信息进行合法性判断,若检索到的文档信息判定为合法,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间。4.根据权利要求3所述的方法,其特征在于,所述若检索到的文档信息判定为合法,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间的步骤包括:若检索到的文档信息判定为合法,该检索模块判断该检索模块对应的缓存空间是否有写入空间,若有写入空间,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间。5.根据权利要求4所述的方法,其特征在于,所述若有写入空间,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间的步骤包括:若有写入空间,则该检索模块获得该写入空间在所述缓存空间的实际位置;该检索模块将判定为合法的文档写入该检索模块对应的缓存空间的相应位置区间,所述相应位置区间的起始位置为所述实际位置,所述相应位置区间的长度与该判定为合法的文档的长度匹配;当该判定为合法的文档写入完成后,将所述实际位置更新为所述相应位置区间的结束位置,并将更新后的实际位置告知所述算分模块。6.根据权利要求4所述的方法,其特征在于,所述方法还包...

【专利技术属性】
技术研发人员:万明成李洋王刚
申请(专利权)人:广东神马搜索科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1