一种基于跨机房Hadoop集群的数据处理方法及装置制造方法及图纸

技术编号:32191325 阅读:8 留言:0更新日期:2022-02-08 15:56
本公开提供的一种基于跨机房Hadoop集群的数据处理方法及装置,应用于跨机房部署的Hadoop集群,Hadoop集群由多个机房的HDFS子集群组成,机房包括至少一组服务器节点,该方法包括:依次在该服务器节点和其他服务器节点的alluxio worker缓存中查询是否存在计算任务的需求数据,如果均不存在,则从存储有需求数据的机房的HDFS子集群中加载需求数据至该服务器节点alluxio worker缓存中,保证该计算任务从该服务器节点alluxio worker缓存中读取到需求数据。本公开通过引入alluxio数据缓存机制,提高了服务器节点的数据读取的速率,进而提高跨机房Hadoop集群的性能。而提高跨机房Hadoop集群的性能。而提高跨机房Hadoop集群的性能。

【技术实现步骤摘要】
一种基于跨机房Hadoop集群的数据处理方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种基于跨机房Hadoop集群的数据处理方法及装置。

技术介绍

[0002]目前,在大数据时代下,随着业务规模的扩张,相应的集群规模也越来越大,在单机房无法满足集群需求的前提下,跨机房的Hadoop集群开始广泛应用。
[0003]然而,当集群规模扩大到一定程度时,存储服务的数据管理已成为集群性能的瓶颈,在降低数据读取速率的同时,也造成集群整体性能下降。因此,如何提高集群整体的数据读取效率,成为提高跨机房部署集群性能的关键所在。

技术实现思路

[0004]鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种基于跨机房Hadoop集群的数据处理方法及装置,技术方案如下:
[0005]一种基于跨机房Hadoop集群的数据处理方法,应用于跨机房部署的Hadoop集群,所述Hadoop集群由多个机房的HDFS子集群组成,所述机房包括至少一组服务器节点,所述方法包括:
[0006]根据分配至所述服务器节点的计算任务,在所述服务器节点对应的第一机房的第一alluxio worker缓存中查询是否存在所述计算任务的需求数据,如果不存在,则在除所述第一机房以外的其他机房的第二alluxio worker缓存中查询是否存在所述需求数据;
[0007]在所述第二alluxio worker缓存中查询不到所述需求数据的情况下,在所述第一机房的第一HDFS子集群中查询是否存在所述需求数据,如果存在,则将所述第一HDFS子集群中的所述需求数据加载至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0008]可选的,所述方法还包括:
[0009]在所述第二alluxio worker缓存中查询到所述需求数据的情况下,将所述第二alluxio worker缓存中的所述需求数据同步至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0010]可选的,所述方法还包括:
[0011]在所述第一机房的第一HDFS子集群中查询不到所述需求数据的情况下,确定所述需求数据所在的第二机房;
[0012]将所述需求数据从所述第二机房的第二HDFS子集群中加载至所述第二机房的第三alluxio worker缓存中;
[0013]将所述第三alluxio worker缓存中的所述需求数据同步至所述所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0014]可选的,所述方法还包括:
[0015]获得所述需求数据;
[0016]按照预设副本放置策略,将所述需求数据存储在对应的所述机房的HDFS子集群中。
[0017]可选的,所述方法还包括:
[0018]获得所述需求数据在所述Hadoop集群中的副本数量;
[0019]确定所述副本数量与所述副本放置策略中的副本设置值是否一致,如果不一致,则根据所述副本设置值进行副本数据恢复。
[0020]一种基于跨机房Hadoop集群的数据处理装置,应用于跨机房部署的Hadoop集群,所述Hadoop集群由多个机房的HDFS子集群组成,所述机房包括至少一组服务器节点,所述装置包括:第一数据查询单元、第二数据查询单元、第三数据查询单元以及第一数据加载单元,
[0021]所述第一数据查询单元,用于根据分配至所述服务器节点的计算任务,在所述服务器节点对应的第一机房的第一alluxio worker缓存中查询是否存在所述计算任务的需求数据,则触发所述第二数据查询单元;
[0022]所述第二数据查询单元,用于在除所述第一机房以外的其他机房的第二alluxio worker缓存中查询是否存在所述需求数据;
[0023]所述第三数据查询单元,用于所述第二数据查询单元在所述第二alluxio worker缓存中查询不到所述需求数据的情况下,在所述第一机房的第一HDFS子集群中查询是否存在所述需求数据,如果存在,则触发所述第一数据加载单元;
[0024]所述第一数据加载单元,用于将所述第一HDFS子集群中的所述需求数据加载至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0025]可选的,所述装置还包括:第一数据同步单元,
[0026]所述第一数据同步单元,用于所述第二数据查询单元在所述第二alluxio worker缓存中查询到所述需求数据的情况下,将所述第二alluxio worker缓存中的所述需求数据同步至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0027]可选的,所述装置还包括:需求数据位置确定单元、第二数据加载单元和第二数据同步单元,
[0028]所述需求数据位置确定单元,用于所述第三数据查询单元在所述第一机房的第一HDFS子集群中查询不到所述需求数据的情况下,确定所述需求数据所在的第二机房;
[0029]所述第二数据加载单元,用于将所述需求数据从所述第二机房的第二HDFS子集群中加载至所述第二机房的第三alluxio worker缓存中;
[0030]所述第二数据同步单元,用于将所述第三alluxio worker缓存中的所述需求数据同步至所述所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。
[0031]可选的,所述装置还包括:需求数据获得单元和需求数据存储单元,
[0032]所述需求数据获得单元,用于获得所述需求数据;
[0033]所述需求数据存储单元,用于按照预设副本放置策略,将所述需求数据存储在对应的所述机房的HDFS子集群中。
[0034]可选的,所述装置还包括:副本数量检测单元、副本校验单元和副本恢复单元,
[0035]所述副本数量检测单元,用于获得所述需求数据在所述Hadoop集群中的副本数量;
[0036]所述副本校验单元,用于确定所述副本数量与所述副本放置策略中的副本设置值是否一致,如果不一致,则触发所述副本恢复单元;
[0037]所述副本恢复单元,用于根据所述副本设置值进行副本数据恢复。
[0038]借由上述技术方案,本公开提供的一种基于跨机房Hadoop集群的数据处理方法及装置,应用于跨机房部署的Hadoop集群,Hadoop集群由多个机房的HDFS子集群组成,机房包括至少一组服务器节点,该方法包括:根据分配至服务器节点的计算任务,在服务器节点对应的第一机房的第一alluxio w本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨机房Hadoop集群的数据处理方法,其特征在于,应用于跨机房部署的Hadoop集群,所述Hadoop集群由多个机房的HDFS子集群组成,所述机房包括至少一组服务器节点,所述方法包括:根据分配至所述服务器节点的计算任务,在所述服务器节点对应的第一机房的第一alluxio worker缓存中查询是否存在所述计算任务的需求数据,如果不存在,则在除所述第一机房以外的其他机房的第二alluxio worker缓存中查询是否存在所述需求数据;在所述第二alluxio worker缓存中查询不到所述需求数据的情况下,在所述第一机房的第一HDFS子集群中查询是否存在所述需求数据,如果存在,则将所述第一HDFS子集群中的所述需求数据加载至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。2.根据权利要求1所述的方法,其特征在于,还包括:在所述第二alluxio worker缓存中查询到所述需求数据的情况下,将所述第二alluxio worker缓存中的所述需求数据同步至所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。3.根据权利要求1所述的方法,其特征在于,还包括:在所述第一机房的第一HDFS子集群中查询不到所述需求数据的情况下,确定所述需求数据所在的第二机房;将所述需求数据从所述第二机房的第二HDFS子集群中加载至所述第二机房的第三alluxio worker缓存中;将所述第三alluxio worker缓存中的所述需求数据同步至所述所述第一alluxio worker缓存中,以使所述计算任务从所述第一alluxio worker缓存中读取到所述需求数据。4.根据权利要求1所述的方法,其特征在于,还包括:获得所述需求数据;按照预设副本放置策略,将所述需求数据存储在对应的所述机房的HDFS子集群中。5.根据权利要求4所述的方法,其特征在于,还包括:获得所述需求数据在所述Hadoop集群中的副本数量;确定所述副本数量与所述副本放置策略中的副本设置值是否一致,如果不一致,则根据所述副本设置值进行副本数据恢复。6.一种基于跨机房Hadoop集群的数据处理装置,其特征在于,应用于跨机房部署的Hadoop集群,所述Hadoop集群由多个机房的HDFS子集群组成,所述机房包括至少一组服务器节点,所述装置包括:第一数据查询单元、第二数据查询单元、第三数据查询单元以及第一数据加载单元,所述第一数据查询单元,用于根据分配至所述服务器节点的计算任务,在所述服务器节点对应的第一...

【专利技术属性】
技术研发人员:陈德肯郭玉章
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1