一种基于多数据中心的异构集群数据处理方法、系统及电子设备技术方案

技术编号:24120537 阅读:42 留言:0更新日期:2020-05-13 02:57
本申请涉及一种基于多数据中心的异构集群数据处理方法、系统及电子设备。包括:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;通过数据中心接收任务并进行任务计算;通过收集器收集每一个数据中心所产生的计算结果。本申请通过构建一个包括调度器和收集器的管理器,通过调度器接收任务并进行任务的调度,通过收集器收集每一个节点所产生的计算结果,实现了新型的高效的基于多数据中心的异构集群资源融合和任务分配,在消除集群间的通讯的情况下提高计算效率,加快了数据的处理速度。

【技术实现步骤摘要】
一种基于多数据中心的异构集群数据处理方法、系统及电子设备
本申请属于异构集群
,特别涉及一种基于多数据中心的异构集群数据处理方法、系统及电子设备。
技术介绍
当今大数据场景下,由于地理或者其他原因,会存在数据隔离和数据分开存储的情况。因此,在计算的过程中会产生大量的数据传输工作,导致处理时间的增加。然而在目前追求高QOS(QualityofService,服务质量)的系统中应该尽量避免这样的情况发生。为了解决上述问题,wang在论文中提出通过G-Hadoop框架结构实现多计算节点的Hadoop集群搭建的方案。该方案具体为:将整个hadoop集群布置成一个大集群,由G-Hadoopmaster节点来控制slave节点,然后一个slave节点就是一个集群,每个集群内部是计算节点。整个系统的构建是在主节点上添加一个plugin来控制整个集群的matedata,然后生成了一个Gfarmfilesystem系统,该系统主要用于存储整个系统要计算的数据,充当一个数据中心的角色,每一次提交任务给master节点,然后master节点通过调度来调度文件系统传输文件给每一个计算节点,计算节点接受到任务后进行计算。上述中,Wang的方案旨在修改Hadoop的源码和增加额外的存储系统来满足整个系统的计算工作。但该方案也有很大的不足,首先,对于源码的开发工作,由于Hadoop是一个不断完善的系统,整个系统的代码随时都会发生改变,因此,该plugin只是适用于在固定的版本中实现该方法,无法满足Hadoop的升级工作。并且开发源码的过程很复杂,如果稍有不正确会导致数据泄露。额外的数据结构,在进行计算的过程中会产生大量的数据传输工作,这个会导致存储节点的压力增大,当整个系统足够大时,文件系统的传输速度会由于需求大而下降。另一方案是2017年由Hadoop官方网站发布的Hadoopfederation,即基于路由器的联邦系统。该系统编写了另外一个插件来进行集群的调度管理。每个子集群是一个高可用性的Hadoop集群,每一个Hadoop集群通过路由器向外部提供服务,然后在子集群的上面有一个statestore,用来存储每一个节点的关系和节点中的数据存储结构。每一个子集群的交互都通过路由器来提供网络服务。当用户提交任务的时候,通过路由器的调度,来反馈给用户将在上面节点得到信息,然后为用户提供服务。该方案的不足之处在于,由于数据是存储在不同集群的,在进行计算调度的过程中会产生集群间的通讯和传输,因此,在计算的过程中会产生大量的IO消耗,并影响整体的计算时间。另外,该方案是对所有集群的内部代码进行修改或者增加功能的方式来进行性能的提升和多机器的运行,会增加开发难度和开发周期,并且不适用于各个版本。
技术实现思路
本申请提供了一种基于多数据中心的异构集群数据处理方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种基于多数据中心的异构集群数据处理方法,包括以下步骤:步骤a:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;步骤b:通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;步骤c:通过数据中心接收任务并进行任务计算;步骤d:通过收集器收集每一个数据中心所产生的计算结果。本申请实施例采取的技术方案还包括:在所述步骤a中,所述Manager中存储有每一个数据中心中所包含的文件,用于整个集群的管理和调度工作;所述manager中还包括一个metadata数据库,所述metadata数据库通过提取每一个数据中心的namenode信息,然后通过心跳机制传递给manager,当数据中心有更新操作时则调用心跳机制向manager传递修改信息;读取在namenode中所包含的文件,对文件进行数据中心的分类,组合成一个用于存储所有数据中心的数据索引的整体索引表,当进行文件查询工作时,首先在整体索引表中查询文件所在的数据中心,再去相应的数据中心进行查询。本申请实施例采取的技术方案还包括:在所述步骤b中,所述通过调度器接收用户提交的任务具体为:所述调度器采用任务分割的模式,收集用户提交的任务,将任务与所述整体索引表中存储的数据中心的数据索引进行比对,根据比对结果对任务进行分割操作,生成多个小任务,并将多个小任务通过网络传输给各个数据中心。本申请实施例采取的技术方案还包括:在所述步骤d中,所述通过收集器收集每一个数据中心所产生的计算结果具体为:所述收集器采用端口监听的方式收集每一个数据中心产生的计算结果,当数据中心完成任务计算时向收集器端口发送信息,当收集器端口发现接收到的计算结果与调度器所分配的任务相对应时,则调用计算集群中的数据收集该计算结果;由于收集得到的计算结果是不同的数据中心产生的多个结果碎片,根据调度器对任务的分割步骤对多个结果碎片进行重塑,得到最终的计算结果,并通过web端口返回计算结果。本申请实施例采取的另一技术方案为:一种基于多数据中心的异构集群数据处理系统,包括:管理器构建模块:用于构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;所述manager包括:调度器:用于接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心,所述数据中心接收任务并进行任务计算;收集器:用于收集每一个数据中心所产生的计算结果。本申请实施例采取的技术方案还包括:所述Manager中存储有每一个数据中心中所包含的文件,用于整个集群的管理和调度工作;所述manager中还包括一个metadata数据库,所述metadata数据库通过提取每一个数据中心的namenode信息,然后通过心跳机制传递给manager,当数据中心有更新操作时则调用心跳机制向manager传递修改信息;读取在namenode中所包含的文件,对文件进行数据中心的分类,组合成一个用于存储所有数据中心的数据索引的整体索引表,当进行文件查询工作时,首先在整体索引表中查询文件所在的数据中心,再去相应的数据中心进行查询。本申请实施例采取的技术方案还包括:所述调度器采用任务分割的模式,收集用户提交的任务,将任务与所述整体索引表中存储的数据中心的数据索引进行比对,根据比对结果对任务进行分割操作,生成多个小任务,并将多个小任务通过网络传输给各个数据中心。本申请实施例采取的技术方案还包括:所述收集器采用端口监听的方式收集每一个数据中心产生的计算结果,当数据中心完成任务计算时向收集器端口发送信息,当收集器端口发现接收到的计算结果与调度器所分配的任务相对应时,则调用计算集群中的数据收集该计算结果;由于收集得到的计算结果是不同的数据中心产生的多个结果碎片,根据调度器对任务的分割步骤对多个结果碎片进行重塑,得到最终的计算结果,并通过web端口返回计算结果。本文档来自技高网
...

【技术保护点】
1.一种基于多数据中心的异构集群数据处理方法,其特征在于,包括以下步骤:/n步骤a:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;/n步骤b:通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;/n步骤c:通过数据中心接收任务并进行任务计算;/n步骤d:通过收集器收集每一个数据中心所产生的计算结果。/n

【技术特征摘要】
1.一种基于多数据中心的异构集群数据处理方法,其特征在于,包括以下步骤:
步骤a:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;
步骤b:通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;
步骤c:通过数据中心接收任务并进行任务计算;
步骤d:通过收集器收集每一个数据中心所产生的计算结果。


2.根据权利要求1所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤a中,所述Manager中存储有每一个数据中心中所包含的文件,用于整个集群的管理和调度工作;所述manager中还包括一个metadata数据库,所述metadata数据库通过提取每一个数据中心的namenode信息,然后通过心跳机制传递给manager,当数据中心有更新操作时则调用心跳机制向manager传递修改信息;读取在namenode中所包含的文件,对文件进行数据中心的分类,组合成一个用于存储所有数据中心的数据索引的整体索引表,当进行文件查询工作时,首先在所述索引表中查询文件所在的数据中心,再去相应的数据中心进行查询。


3.根据权利要求2所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤b中,所述通过调度器接收用户提交的任务具体为:所述调度器采用任务分割的模式,收集用户提交的任务,将任务与所述整体索引表中存储的数据中心的数据索引进行比对,根据比对结果对任务进行分割操作,生成多个小任务,并将多个小任务通过网络传输给各个数据中心。


4.根据权利要求1至3任一项所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤d中,所述通过收集器收集每一个数据中心所产生的计算结果具体为:所述收集器采用端口监听的方式收集每一个数据中心产生的计算结果,当数据中心完成任务计算时向收集器端口发送信息,当收集器端口发现接收到的计算结果与调度器所分配的任务相对应时,则调用计算集群中的数据收集该计算结果;由于收集得到的计算结果是不同的数据中心产生的多个结果碎片,根据调度器对任务的分割步骤对多个结果碎片进行重塑,得到最终的计算结果,并通过web端口返回计算结果。


5.一种基于多数据中心的异构集群数据处理系统,其特征在于,包括:
管理器构建模块:用于构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;
所述manager包括:
调度器:用于接收用户提交...

【专利技术属性】
技术研发人员:熊景盼王洋须成忠张锦霞
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1