分布式统计分析系统的配置方法及分布式统计分析系统技术方案

技术编号:15794982 阅读:125 留言:0更新日期:2017-07-10 10:41
本发明专利技术公开了一种分布式统计分析系统的配置方法,所述分布式统计分析系统包括ZooKeeper集群,服务节点和计算节点集群,所述方法包括:选举计算节点集群中的领导节点,根据数据分片原则在各计算节点中分片数据,并在数据分片的副本中选举领导分片;服务节点收到统计分析请求后,向领导节点申请计算节点,领导节点将任务量最小的计算节点反馈给服务节点;服务节点获得反馈的计算节点后,将统计请求发送给该计算节点;计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据分片副本执行统计任务。本发明专利技术还提供了基于上述配置方法的分布式统计分析系统。

【技术实现步骤摘要】
分布式统计分析系统的配置方法及分布式统计分析系统
本专利技术涉及一种分布式统计分析系统的配置方法,特别是一种配置集群管理、数据存储及迁移、统计分析查询和统计任务负载分担功能的配置方法,以及由该配置方法得到的分布式统计分析系统。
技术介绍
分布式系统是一种由多个处理资源相互连接在一起的计算机系统。这些处理资源又可以称为节点设备,在统一的控制下来执行同一人物。如中国专利CN102497280就公开了一种分布式系统,其能够实现多个设备节点之间的相互感知。提高了管理效率。但是其并没有公开对各设备节点具体执行任务的管理和配置。分布式系统通常需要具备统计分析的功能。但是目前的分布式统计系统中并没有根据处理资源的实际运行情况来在设备节点之间分配统计分析任务。因此会发生处理资源没有被充分利用的情况。
技术实现思路
本专利技术提供一种分布式统计分析系统的配置方法和由该配置方法得到的分布式统计分析系统。保证系统的高可用性和高可扩展性,并实现统计分析任务的负载分担。为解决上述问题,第一方面,本专利技术提供一种分布式统计分析系统的配置方法,所述分布式统计分析系统包括ZooKeeper集群,服务节点和计算节点集群,所述方法包括:选举计算节点集群中的领导节点,根据数据分片原则在各计算节点中分片数据,并在数据分片的副本中选举领导分片;服务节点收到统计分析请求后,向领导节点申请计算节点,领导节点将任务量最小的计算节点反馈给服务节点;服务节点获得反馈的计算节点后,将统计请求发送给该计算节点;计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据片副本执行统计任务。可选地或优选地,所述方法还包括:服务节点将更新的数据发送给领导节点,领导节点查找到对应的数据分片的所有副本并将数据同步到该数据分片的各个副本。可选地或优选地,所述数据同步采用两阶段提交协议,若全部成功,则返回成功,若任一个副本失败,则回退并返回失败。可选地或优选地,所述方法还包括:在调整数据分片个数或分片规则的情况下,重新映射数据和数据分片的关系。可选地或优选地,所述方法还包括在设备状态发生变化时,对分布式统计系统进行调整的步骤,所述调整包括以下至少一种:当检测到设备故障时,检查各shard副本的个数及分布情况,若各shard副本的个数差别较大,则对shard进行分布调整和迁移,以保证各shard副本的个数的基本相同;以及当检测到新设备加入时,检查各shard副本的个数和分布情况,若shard的副本的个数有差异,则将副本个数少的shard复制到新设备,若个数相同,则重新进行分片。可选地或优选地,所述计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据片副本执行统计任务包括:执行计算任务的所述计算节点将统计作业拆分成多个任务,并根据分片规则将需要统计的ID列表进行分组,计算节点将任务和ID组发送给对应的领导分片,由领导分片负责选择交由负载较少的数据分片副本执行任务,在所有的任务执行完毕后,执行节点收集所有计算结果并对结果进行合并,继而返回给服务节点。可选地或优选地,如果统计作业需要多次访问数据,则由执行节点在收集合并结果后,根据统计作业需求再次进行任务拆分和结果合并,直到统计作业运行完毕为止。第二方面,本专利技术提供一种分布式统计分析系统,包括ZooKeeper集群,服务节点和计算节点集群。还包括:集群管理模块,用于选举计算节点集群中的领导节点,根据数据分片原则在各计算节点中分片数据,并在数据分片的副本中选举领导分片;统计分析模块,用于服务节点收到统计分析请求后,向领导节点申请计算节点,领导节点将任务量最小的计算节点反馈给服务节点;服务节点获得反馈的计算节点后,将统计请求发送给该计算节点;计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据片副本执行统计任务。可选地或优选地,还包括:数据存储模块,用于服务节点将更新的数据发送给领导节点,领导节点查找到对应的数据分片的所有副本并将数据同步到该数据分片的各个副本。可选地或优选地,所述数据同步采用两阶段提交协议,若全部成功,则返回成功,若任一个副本失败,则回退并返回失败。本专利技术提供的分布式统计系统的配置方法和分布式统计分析系统,可以将任务分担,并优先分配给负载较小的计算节点和数据分片运行,使得相对空闲的处理资源能够自动得到充分利用,提高了统计效率,并保证系统具有高扩展性和高稳定性。附图说明图1为本专利技术实施例一所提供的分布式统计分析系统的架构图;图2为本专利技术实施例一所提供的分布式统计分析系统的配置方法流程图;图3为本专利技术实施例一所提供的分布式统计分析系统的配置方法的另一个流程图;图4为本专利技术实施例一所提供的分布式统计分析系统的配置方法的另一个流程图;图5为本专利技术实施例一所提供的分布式统计分析系统的配置方法的另一个流程图;图6为本专利技术实施例二所提供的分布式统计分析系统的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。实施例一本实施例提供了一种分布式统计分析系统的配置方法,其中,如图1所示,该分布式统计分析系统主要由三部分组成:ZooKeeper集群,服务节点和计算节点集群。ZooKeeper集群用于计算节点集群的状态管理。服务节点负责统计服务的分解和整合以及数据的更新控制等工作。服务节点接收前端的统计分析请求,并解析为内容搜索和统计分析两部分,内容搜索部分的任务交由内容搜索引擎运行,统计分析部分的任务交由计算节点集群运行。计算节点集群用于数据的分片和备份、计算任务的拆分和结果合并、计算任务的负载等工作。术语解释:如无特别说明,在本专利技术中涉及的有关术语具有如下的含义:术语解释:ZooKeeper:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper包含一个简单的原语集,提供Java和C的接口。在本专利技术中,ZooKeeper集群用于计算节点集群的状态管理。Solr:Solr是用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的全文搜索服务器。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本(如Word、PDF)的处理。Solr是高度可扩展的,并提供了分布式搜索和索引复制。Shard:数据分片;Shard副本:数据分片副本(Shard-1Replica、Shard-2Replica、Shard-3Replica……);Core:管理shard副本和针对副本数据进行统计分析工作的功能集合(图1中的Core1、Core2……);Core包括两部分内容:统计分析和数据存储。针对数据存储,core作为两阶段提交协议的participant参与数据的更新操作。Core内shard的各个副本采用实例方式存储,本地的直接调用实例,远端的绑定远端服务。overseer:计算节点中的领导节点。基于上述分布式统计分析系统,如本文档来自技高网
...
分布式统计分析系统的配置方法及分布式统计分析系统

【技术保护点】
分布式统计分析系统的配置方法,所述分布式统计分析系统包括ZooKeeper集群,服务节点和计算节点集群,其特征在于,所述方法包括:选举计算节点集群中的领导节点,根据数据分片原则在各计算节点中分片数据,并在数据分片的副本中选举领导分片;服务节点收到统计分析请求后,向领导节点申请计算节点,领导节点将任务量最小的计算节点反馈给服务节点;服务节点获得反馈的计算节点后,将统计请求发送给该计算节点;计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据分片副本执行统计任务。

【技术特征摘要】
1.分布式统计分析系统的配置方法,所述分布式统计分析系统包括ZooKeeper集群,服务节点和计算节点集群,其特征在于,所述方法包括:选举计算节点集群中的领导节点,根据数据分片原则在各计算节点中分片数据,并在数据分片的副本中选举领导分片;服务节点收到统计分析请求后,向领导节点申请计算节点,领导节点将任务量最小的计算节点反馈给服务节点;服务节点获得反馈的计算节点后,将统计请求发送给该计算节点;计算节点查找领导分片并向领导分片申请得到空闲的数据分片副本,并将统计任务分配给该数据分片副本执行统计任务。2.根据权利要求1所述的分布式统计分析系统的配置方法,其特征在于,所述方法还包括:服务节点将更新的数据发送给领导节点,领导节点查找到对应的数据分片的所有副本并将数据同步到该数据分片的各个副本。3.根据权利要求2所述的分布式统计分析系统的配置方法,其特征在于,所述数据同步采用两阶段提交协议,若全部成功,则返回成功,若任一个副本失败,则回退并返回失败。4.根据权利要求2所述的分布式统计分析系统的配置方法,其特征在于,所述方法还包括:在调整数据分片个数或分片规则的情况下,重新映射数据和数据分片的关系。5.根据权利要求1所述的分布式统计分析系统的配置方法,其特征在于,所述方法还包括在设备状态发生变化时,对分布式统计系统进行调整的步骤,所述调整包括以下至少一种:当检测到设备故障时,检查各shard副本的个数及分布情况,若各shard副本的个数差别较大,则对shard进行分布调整和迁移,以保证各shard副本的个数的基本相同;以及当检测到新设备加入时,检查各shard副本的个数和分布情况,若shard的副本的个数有差异,则将副本个数少的shard复制到新设备,若个数相同,则重新进行分片。6....

【专利技术属性】
技术研发人员:何毅荣龚朕郑建全
申请(专利权)人:九次方大数据信息集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1