一种海量数据实时排序优化方法技术

技术编号：15746772 阅读：105 留言：0更新日期：2017-07-03 02:48

本发明专利技术公开了一种海量数据实时排序优化方法。本方法为：1)设置一集群级节点、若干节点级节点和若干文件级节点；2)集群级节点将收到的检索排序请求发送给各节点级节点，各节点级节点将该检索排序请求发送给本节点的文件级节点；3)各文件级节点根据该检索排序请求，将与本节点相关的日志文件排序后输出有序数据给节点级节点；4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点；5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中，本方法都能有效降低内存使用量。

Real time sorting optimization method for massive data

The invention discloses a real-time sorting optimization method for massive data. The method is as follows: 1) setting a cluster node number, node level nodes and node number of documents; 2) cluster node will receive the request sent to the sorting node node, each node node will send the request to the sorting file node the node; 3) each document node according to the sorting request associated with the node log files sorted output order data to the node level node; 4) each node node according to the retrieval request will sort the node log data with time scale and partition condition sorted output to the cluster node; 5) the cluster node will ordered data transmission of each node node over flow sorting summary. This method can effectively reduce memory usage in arbitrary sorting scenarios.

全部详细技术资料下载

【技术实现步骤摘要】
一种海量数据实时排序优化方法
本专利技术涉及数据查询优化领域，是一种针对海量数据实时排序的优化方法。
技术介绍
由于日志数据之间一般都存在时序关系，这就要求检索引擎一方面能以秒级响应的性能获得满足业务用户需求的数据，另一方面还需要在获取数据时保持这种时序关系，即需要检索引擎支持面向海量日志数据的秒级排序功能。按照传统的排序方法，检索引擎需要获取所有满足条件的数据后才能进行排序并返回结果，这在结果集较大的情况下将无法实现秒级响应，另一方面由检索引擎缓存所有中间结果也将消耗大量的系统资源，从而影响检索引擎服务的整体性能。
技术实现思路
针对现有技术中存在的技术问题，本专利技术的目的在于提供一种海量数据实时排序优化方法。本专利技术提出针对海量日志数据的多级流水排序方法，该方法通过文件级、节点级、集群级三级流水排序的方式，一方面保证了首批结果集的响应时间，另一方面各级排序不用缓存所有中间结果，从而降低了检索引擎排序所需的内存资源。本专利技术的技术方案为：一种海量数据实时排序优化方法，其步骤为：1)设置一集群级节点、若干节点级节点和若干文件级节点；其中，集群级节点为接入检索排序请求的服务器节点，节点级节点为响应检索排序请求的服务器节点，文件级节点为节点级节点内部的文件排序进程；2)集群级节点将收到的检索排序请求发送给各节点级节点，各节点级节点将该检索排序请求发送给本节点的文件级节点；3)各文件级节点根据该检索排序请求，将与本节点相关的日志文件排序后输出有序数据给节点级节点；4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节...
一种海量数据实时排序优化方法

【技术保护点】
一种海量数据实时排序优化方法，其步骤为：1)设置一集群级节点、若干节点级节点和若干文件级节点；其中，集群级节点为接入检索排序请求的服务器节点，节点级节点为响应检索排序请求的服务器节点，文件级节点为节点级节点内部的文件排序进程；2)集群级节点将收到的检索排序请求发送给各节点级节点，各节点级节点将该检索排序请求发送给本节点的文件级节点；3)各文件级节点根据该检索排序请求，将与本节点相关的日志文件排序后输出有序数据给节点级节点；4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点；5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。

【技术特征摘要】
1.一种海量数据实时排序优化方法，其步骤为：1)设置一集群级节点、若干节点级节点和若干文件级节点；其中，集群级节点为接入检索排序请求的服务器节点，节点级节点为响应检索排序请求的服务器节点，文件级节点为节点级节点内部的文件排序进程；2)集群级节点将收到的检索排序请求发送给各节点级节点，各节点级节点将该检索排序请求发送给本节点的文件级节点；3)各文件级节点根据该检索排序请求，将与本节点相关的日志文件排序后输出有序数据给节点级节点；4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点；5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。2.如权利要求1所述的方法，其特征在于，所述节点级节点根据该检索排序请求确定需要排序的文件集合，然后为该文件集合中每一待排序文件分配一文件级节点；然后该文件级节点查询对应待排序文件中符合该检索排序请求的日志数据，并将其排序后发送给所述节点级节点。3.如权利要求2所述的方法，其特征在于，所述节点级节点将其包含...

【专利技术属性】
技术研发人员：李波，古晓艳，钟进文，王卓，王伟平，孟丹，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人