一种基于抽样的分布式搜索结果合并翻页方法及系统技术方案

技术编号：10246667 阅读：156 留言：0更新日期：2014-07-23 23:54

本发明专利技术公开了一种基于抽样的分布式搜索结果合并翻页方法及系统，旨在显著降低分布式搜索结果合并翻页过程中，存在的网络带宽和计算消耗较大的问题，同时本发明专利技术亦可改良后应用于其它分布式查询系统的结果合并翻页中。其技术方案为：对索引数据切片，形成索引文件切片，然后分到各个切片搜索服务器(shard-search server)上，完成了索引文件的初始化工作；搜索结果合并节点(gather)接收外部系统的合并翻页请求，进入基于抽样的分布式搜索结果合并翻页具体步骤。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于抽样的分布式搜索结果合并翻页方法及系统，旨在显著降低分布式搜索结果合并翻页过程中，存在的网络带宽和计算消耗较大的问题，同时本专利技术亦可改良后应用于其它分布式查询系统的结果合并翻页中。其技术方案为：对索引数据切片，形成索引文件切片，然后分到各个切片搜索服务器(shard-search?server)上，完成了索引文件的初始化工作；搜索结果合并节点(gather)接收外部系统的合并翻页请求，进入基于抽样的分布式搜索结果合并翻页具体步骤。【专利说明】一种基于抽样的分布式搜索结果合并翻页方法及系统
本专利技术属于海量数据处理
，具体涉及一种针对分布式搜索结果合并翻页问题的方法及系统。
技术介绍
电子商务平台(B2B、B2C等)的出现极大地方便了人们的生活，当人们越来越多地依赖这些平台时，也对平台本身提出了更高的要求:比如，在淘宝、京东等交易平台上，人们希望能够更多、更快、更精准地发现自己需要的商品；而对于电商企业而言，要满足人们的这些要求，在技术层面上通常需要一款高效、精准的海量搜索系统。由于检索数据庞大且快速增长，传统的集中式的搜索系统已经越来越不能胜任大型电商平台的检索任务。随着分布式及数据切片技术的发展，市面上出现了基于数据切片的分布式搜索系统，其中以apache开源的solr及Elasticsearch公司的elasticsearch较具代表性。这些分布式的搜索系统都具备较好的可扩展性，能够将数据分片索引于庞大的机器集群上，这为解决海量数据的检索问题提供了方案。然而由于切片技术本身的局限性，这些搜索系...

【技术保护点】
一种基于抽样的分布式搜索结果排序翻页方法，其特征在于，包括：对索引数据切片，形成索引文件切片，然后分到各个切片搜索服务器(shard‑search server)上，完成了索引文件的初始化工作；搜索结果合并节点(gather)接收外部系统的合并翻页请求，进入步骤1；步骤1：搜索结果合并节点(gather)分别向各个切片搜索服务器发送查询及针对搜索结果的抽样请求，并等待响应结果；步骤2：切片搜索服务器(shard‑search server)依照查询条件检索，并对命中结果排序，最后从排序结果中获取能够涵盖当前翻页的前若干条记录，针对这些记录，切片搜索服务器以固定步长做整数倍抽样，并将抽样记录返回；步骤3：搜索结果合并节点(gather)在获取到各个切片搜索服务器(shard‑search server)的抽样结果后，将它们按照排序域值做统一排序；步骤4：基于步骤3的排序结果，搜索结果合并节点(gather)进一步计算出所需目标翻页的记录在各个切片上的大致开始位置(startpoint)，同时将肯定不属于目标翻页的记录排除在外；步骤5：基于步骤4的结果，搜索结果合并节点(gather)向各...

【技术特征摘要】

【专利技术属性】
技术研发人员：梁峰，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人