The invention relates to a retrieval method, device and equipment for parallel retrieval and calculation of multi-segment indexes, belonging to the technical field of search engines. The multi-segment index parallel retrieval and scoring retrieval method is applied to the retrieval and scoring of a plurality of index segments, the plurality of index segments belong to the same monolithic index, and each index segment corresponds to a separate retrieval module. The method comprises: the calculation module obtains the document information retrieved by each retrieval module. The arithmetic sub-module obtains the arithmetic sub-result corresponding to each document information according to the preset arithmetic sub-rule. Because each retrieval module can run in parallel, and the retrieval module and calculation module can be synchronized and parallel, so we can make full use of the advantages of multi-core, quickly complete the retrieval and calculation, greatly improve the retrieval efficiency, and ultimately improve the user experience.
【技术实现步骤摘要】
一种多段索引并行检索与算分的检索方法、装置及设备
本专利技术属于搜索引擎
,具体涉及一种多段索引并行检索与算分的检索方法、装置及设备。
技术介绍
随着硬件技术的高速发展,单机处理能力得到大幅提升。SSD固态硬盘容量达到了TB级别,内存容量和CPU核数均翻倍增长,网卡也从千兆网卡升级成万兆网卡。如何有效利用这些硬件资源,提升检索性能,是当前搜索引擎急需解决的课题。单机内存容量和SSD固态硬盘容量的快速增长,意味着单机可以容纳更大规模的索引。网络带宽提升一个量级,使得节点之间可以传递更大的数据量,为单机返回更多结果提供了前提条件。然而,单机计算能力的提升,是靠CPU核数扩展得以提升,而单核CPU频率并无变化。受CPU频率限制,单线程计算能力并无改善。那么,在单机索引量增加之后,传统的串行检索与算分机制,必然会导致检索延迟大幅提升,并最终影响到用户体验。为降低因索引量增加导致的检索延迟,本提案提出一种多索引段并行检索与算分的方案。该方案可以充分利用多核的优势,能有效避免因为索引量增加而导致单机检索延迟增加。
技术实现思路
鉴于此,本专利技术的目的在于提供一种多段索引并行检索与算分的检索方法、装置及设备,以有效地改善上述问题。本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供了一种多段索引并行检索与算分的检索方法,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块。所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。第二方面,本 ...
【技术保护点】
1.一种多段索引并行检索与算分的检索方法,其特征在于,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块;所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。
【技术特征摘要】
1.一种多段索引并行检索与算分的检索方法,其特征在于,应用于多个索引段的检索与算分,所述多个索引段属于同一个单片索引,每个所述索引段对应一个独立的检索模块;所述方法包括:算分模块获取每个所述检索模块检索到的文档信息;所述算分模块根据预设的算分规则获得每个所述文档信息对应的算分结果。2.根据权利要求1所述的方法,其特征在于,每个所述索引段还对应一个缓存空间,所述缓存空间用于存储与该缓存空间对应的检索模块检索到的文档信息;所述获取每个所述检索模块检索到的文档信息的步骤包括:所述算分模块获取每个所述缓存空间所存储的文档信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:每个所述检索模块对检索到的文档信息进行合法性判断,若检索到的文档信息判定为合法,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间。4.根据权利要求3所述的方法,其特征在于,所述若检索到的文档信息判定为合法,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间的步骤包括:若检索到的文档信息判定为合法,该检索模块判断该检索模块对应的缓存空间是否有写入空间,若有写入空间,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间。5.根据权利要求4所述的方法,其特征在于,所述若有写入空间,则该检索模块将判定为合法的文档信息写入该检索模块对应的缓存空间的步骤包括:若有写入空间,则该检索模块获得该写入空间在所述缓存空间的实际位置;该检索模块将判定为合法的文档写入该检索模块对应的缓存空间的相应位置区间,所述相应位置区间的起始位置为所述实际位置,所述相应位置区间的长度与该判定为合法的文档的长度匹配;当该判定为合法的文档写入完成后,将所述实际位置更新为所述相应位置区间的结束位置,并将更新后的实际位置告知所述算分模块。6.根据权利要求4所述的方法,其特征在于,所述方法还包...
【专利技术属性】
技术研发人员:万明成,李洋,王刚,
申请(专利权)人:广东神马搜索科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。