跨域大数据平台的分布式集群状态信息管理方法及系统技术方案

技术编号:30431317 阅读:14 留言:0更新日期:2021-10-24 17:24
本发明专利技术提供一种用于跨域大数据平台的分布式集群状态信息管理方法、系统及电子设备。该跨域大数据平台的分布式集群状态信息管理方法包括:将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件,并缓存一份于本集群的leader节点,集群内的各节点注册为Zookeeper组件的客户端;以及进行省份大数据平台在总部大数据平台的注册,最终完成集群的信息在总部大数据平台内的自动备份和缓存,以完成省份大数据平台的上线操作,并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知,其中,总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。机制。机制。

【技术实现步骤摘要】
跨域大数据平台的分布式集群状态信息管理方法及系统


[0001]本专利技术涉及数据处理领域,尤其涉及一种跨域大数据平台的分布式集群状态信息管理方法、系统、电子设备及存储介质。

技术介绍

[0002]目前现有技术中,像中国联通、中国电信会在各个省份建立大数据平台,然后每天把存储数据的文件通过网络上传到总部的大数据平台,然后在总部做数据稽核、数据分析等业务。在大数据平台的数据稽核、数据分析中,通常会使用分布式系统来完成计算。分布式系统需要根据集群内部多个进程的状态信息,进行协作多个进程的任务,通常能够使用Zookeeper服务组件,来进行分布式任务的协作或者竞争管理。
[0003]由于平台之间都是物理隔离和人工沟通,如果其中某平台的集群出现故障,需要人工跨部门通知其他平台,本平台的数据和资源无法获取和使用。当平台集群故障和恢复时,也需要人工跨部门通知其它平台本平台的数据和资源已恢复。因此,数据的存储和计算压力都全部集中总部大数据平台,导致总部的服务器集群建设成本、网络带宽压力、人工运维压力和管理成本等过于集中到总部,而相反省份大数据平台的人力和资源得不到充分的运用。总部和省份平台之间的状态信息的同步都是人工跨部门沟通,灵活性和响应速度都大大降低。此外,Zookeeper服务组件仅仅可针对单一平台内部进行状态信息的同步和任务的协作,对于多个大数据平台之间的任务协作并不能适用。

技术实现思路

[0004]本专利技术提供一种跨域大数据平台的分布式集群状态信息管理方法、系统、电子设备及存储介质,旨在克服现有技术中的诸多问题,并且实现了整个跨域集群状态信息在平台内部的实时一致性和在平台之间的最终一致性,满足了跨域调度任务下发到各个省份集群,使得数据存储和计算都可以本地化。而且这些信息的自动化同步以及可视化,大大方便了跨部门沟通,灵活性和及时性都得到极大提升。此外,本专利技术解决了针对单一平台内部进行状态信息的同步和任务的协作,以及针对多个大数据平台之间的任务协作。
[0005]具体地,本专利技术实施例提供了以下技术方案:
[0006]第一方面,本专利技术的实施例提供一种跨域大数据平台的分布式集群状态信息管理方法,包括:
[0007]将所述跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于所述各个大数据平台的集群内的Zookeeper服务组件,并缓存且仅缓存一份于本集群的leader节点,所述集群内的各节点注册为所述Zookeeper组件的客户端;以及
[0008]进行所述省份大数据平台在所述总部大数据平台的注册,其中所述省份大数据平台的leader节点定期向所述总部大数据平台的集群的所述对外开放节点列表发送注册请求,在所述总部大数据平台收到所述注册请求后,如果确认为允许注册的所述省份大数据
平台,并且确认所述省份大数据平台的所述对外开放列表是可用的,则进行数据同步和元数据信息的同步,最终完成所述集群的信息在所述总部大数据平台内的自动备份和缓存,以完成所述省份大数据平台的上线操作,并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知,其中,所述总部大数据平台对所述省份大数据平台的所述对外开放节点列表保持RPC心跳机制。
[0009]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:
[0010]所述进行所述省份大数据平台在所述总部大数据平台的注册,包括:
[0011]所述省份大数据平台启动后选举出集群的leader节点,并通过所述RPC向所述总部大数据平台的对外开放节点列表MASTER_ACCESS_LIST发起注册请求;
[0012]所述总部大数据平台启动后选举出集群的leader节点,并在接收到所述注册请求后验证所述省份大数据平台的对外开放节点列表SLAVE_ACCESS_LIST的合法性;
[0013]回复数据和元数据的同步消息,并向所述省份大数据平台同步所述数据和所述元数据;以及
[0014]所述总部大数据平台将所述省份大数据平台的所述SLAVE_ACCESS_LIST信息备份到所述Zookeeper服务组件,并将所述SLAVE_ACCESS_LIST信息缓存且仅缓存一份到本集群的leader节点。
[0015]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:
[0016]所述将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知,包括:
[0017]在所述总部大数据平台的Leader节点接收到刚刚注册的缓存信息后,向先前已经注册成功的所述省份大数据平台发起远程过程调用RPC通知,通知有新平台注册进来,并通过所述省份大数据平台的所述SLAVE_ACCESS_LIST向各个省份同步更新所述跨域数据平台的最新缓存信息;以及
[0018]在所述省份大数据平台的SLAVE_ACCESS_LIST收到所述总部大数据平台发送的所述跨域数据平台的所述最新缓存信息后,将所述最新缓存信息备份到所述Zookeeper服务组件,并缓存且仅缓存一份到本集群的leader节点。
[0019]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:所述方法还包括:
[0020]注册成功的所述省份大数据平台的Leader节点负责与所述总部大数据平台的MASTER_ACCESS_LIST保持RPC心跳通信,并且进行可视化显示以监测跨域功能正常运行;以及
[0021]注册成功的所述总部大数据平台的leader节点负责与所述省份大数据平台的SLAVE_ACCESS_LIST保持RPC心跳通信,并且进行可视化显示,以监测跨域功能正常运行。
[0022]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:所述方法还包括:
[0023]所述总部大数据平台通过配置CREATE CLUSTER命令来进行第一动作,所述第一动作用于允许所述省份大数据平台注册到所述总部大数据平台中;
[0024]所述总部大数据平台通过配置DROP CLUSTER命令来进行第二动作,所述第二动作用于拒绝所述省份大数据平台注册到所述总部大数据平台中;以及
[0025]所述总部大数据平台通过ALTER CLUSTER命令来进行第三动作,所述第三动作用于改变所述省份大数据平台的所述SLAVE_ACCESS_LIST。
[0026]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:所述方法还包括:
[0027]所述第一动作、所述第二动作和所述第三动作在所述总部大数据平台的任意节点上执行,并且与所述第一动作、所述第二动作和所述第三动作相关的管理信息被备份到所述Zookeeper服务组件并被缓存且仅缓存一份到本集群的leader节点。
[0028]进一步地,该跨域大数据平台的分布式集群状态信息管理方法还包括:
[0029]所述总部大数据平台对省份大数据平台的对外开放节点列表都保持RPC心跳机制,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨域大数据平台的分布式集群状态信息管理方法,其特征在于,包括:将所述跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于所述各个大数据平台的集群内的Zookeeper服务组件,并缓存且仅缓存一份于本集群的leader节点,所述集群内的各节点注册为所述Zookeeper组件的客户端;进行所述省份大数据平台在所述总部大数据平台的注册,其中所述省份大数据平台的leader节点定期向所述总部大数据平台的集群的所述对外开放节点列表发送注册请求,在所述总部大数据平台收到所述注册请求后,如果确认为允许注册的所述省份大数据平台,并且确认所述省份大数据平台的所述对外开放列表是可用的,则进行数据同步和元数据信息的同步,最终完成所述集群的信息在所述总部大数据平台内的自动备份和缓存,以完成所述省份大数据平台的上线操作,并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知,其中,所述总部大数据平台对所述省份大数据平台的所述对外开放节点列表保持RPC心跳机制。2.根据权利要求1所述的跨域大数据平台的分布式集群状态信息管理方法,其特征在于,所述进行所述省份大数据平台在所述总部大数据平台的注册,包括:所述省份大数据平台启动后选举出集群的leader节点,并通过所述RPC向所述总部大数据平台的对外开放节点列表MASTER_ACCESS_LIST发起注册请求;所述总部大数据平台启动后选举出集群的leader节点,并在接收到所述注册请求后验证所述省份大数据平台的对外开放节点列表SLAVE_ACCESS_LIST的合法性;回复数据和元数据的同步消息,并向所述省份大数据平台同步所述数据和所述元数据;以及所述总部大数据平台将所述省份大数据平台的所述SLAVE_ACCESS_LIST信息备份到所述Zookeeper服务组件,并将所述SLAVE_ACCESS_LIST信息缓存且仅缓存一份到本集群的leader节点。3.根据权利要求2所述的跨域大数据平台的分布式集群状态信息管理方法,其特征在于,所述将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知,包括:在所述总部大数据平台的Leader节点接收到刚刚注册的缓存信息后,向先前已经注册成功的所述省份大数据平台发起远程过程调用RPC通知,通知有新平台注册进来,并通过所述省份大数据平台的所述SLAVE_ACCESS_LIST向各个省份同步更新所述跨域数据平台的最新缓存信息;以及在所述省份大数据平台的SLAVE_ACCESS_LIST收到所述总部大数据平台发送的所述跨域数据平台的所述最新缓存信息后,将所述最新缓存信息备份到所述Zookeeper服务组件,并缓存且仅缓存一份到本集群的leader节点。4.根据权利要求1所述的跨域大数据平台的分布式集群状态信息管理方法,其特征在于,所述方法还包括:注册成功的所述省份大数据平台的Leader节点负责与所述总部大数据平台的MASTER_ACCESS_LIST保持RPC心跳通信,并且进行可视化显示以监测跨域功能正常运行;以及注册成功的所述总部大数据平台的leader节点负责与所述省份大数据平台的SLAVE_

【专利技术属性】
技术研发人员:刘二查康金怀
申请(专利权)人:北京东方国信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1