【技术实现步骤摘要】
一种基于多数据中心的异构集群数据处理方法、系统及电子设备
本申请属于异构集群
,特别涉及一种基于多数据中心的异构集群数据处理方法、系统及电子设备。
技术介绍
当今大数据场景下,由于地理或者其他原因,会存在数据隔离和数据分开存储的情况。因此,在计算的过程中会产生大量的数据传输工作,导致处理时间的增加。然而在目前追求高QOS(QualityofService,服务质量)的系统中应该尽量避免这样的情况发生。为了解决上述问题,wang在论文中提出通过G-Hadoop框架结构实现多计算节点的Hadoop集群搭建的方案。该方案具体为:将整个hadoop集群布置成一个大集群,由G-Hadoopmaster节点来控制slave节点,然后一个slave节点就是一个集群,每个集群内部是计算节点。整个系统的构建是在主节点上添加一个plugin来控制整个集群的matedata,然后生成了一个Gfarmfilesystem系统,该系统主要用于存储整个系统要计算的数据,充当一个数据中心的角色,每一次提交任务给master节点,然后master节点通过调度来调度文件系统传输文件给每一个计算节点,计算节点接受到任务后进行计算。上述中,Wang的方案旨在修改Hadoop的源码和增加额外的存储系统来满足整个系统的计算工作。但该方案也有很大的不足,首先,对于源码的开发工作,由于Hadoop是一个不断完善的系统,整个系统的代码随时都会发生改变,因此,该plugin只是适用于在固定的版本中实现该方法,无法满足Hadoop的升级工 ...
【技术保护点】
1.一种基于多数据中心的异构集群数据处理方法,其特征在于,包括以下步骤:/n步骤a:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;/n步骤b:通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;/n步骤c:通过数据中心接收任务并进行任务计算;/n步骤d:通过收集器收集每一个数据中心所产生的计算结果。/n
【技术特征摘要】
1.一种基于多数据中心的异构集群数据处理方法,其特征在于,包括以下步骤:
步骤a:构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;
步骤b:通过调度器接收用户提交的任务,并对任务进行分割操作,将分割后的小任务分配给每一个相对应的数据中心;
步骤c:通过数据中心接收任务并进行任务计算;
步骤d:通过收集器收集每一个数据中心所产生的计算结果。
2.根据权利要求1所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤a中,所述Manager中存储有每一个数据中心中所包含的文件,用于整个集群的管理和调度工作;所述manager中还包括一个metadata数据库,所述metadata数据库通过提取每一个数据中心的namenode信息,然后通过心跳机制传递给manager,当数据中心有更新操作时则调用心跳机制向manager传递修改信息;读取在namenode中所包含的文件,对文件进行数据中心的分类,组合成一个用于存储所有数据中心的数据索引的整体索引表,当进行文件查询工作时,首先在所述索引表中查询文件所在的数据中心,再去相应的数据中心进行查询。
3.根据权利要求2所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤b中,所述通过调度器接收用户提交的任务具体为:所述调度器采用任务分割的模式,收集用户提交的任务,将任务与所述整体索引表中存储的数据中心的数据索引进行比对,根据比对结果对任务进行分割操作,生成多个小任务,并将多个小任务通过网络传输给各个数据中心。
4.根据权利要求1至3任一项所述的基于多数据中心的异构集群数据处理方法,其特征在于,在所述步骤d中,所述通过收集器收集每一个数据中心所产生的计算结果具体为:所述收集器采用端口监听的方式收集每一个数据中心产生的计算结果,当数据中心完成任务计算时向收集器端口发送信息,当收集器端口发现接收到的计算结果与调度器所分配的任务相对应时,则调用计算集群中的数据收集该计算结果;由于收集得到的计算结果是不同的数据中心产生的多个结果碎片,根据调度器对任务的分割步骤对多个结果碎片进行重塑,得到最终的计算结果,并通过web端口返回计算结果。
5.一种基于多数据中心的异构集群数据处理系统,其特征在于,包括:
管理器构建模块:用于构建一个manager,通过manager对计算区域内多个数据中心的数据进行任务分解;
所述manager包括:
调度器:用于接收用户提交...
【专利技术属性】
技术研发人员:熊景盼,王洋,须成忠,张锦霞,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。