一种跨域集群计算资源聚合和分配的方法技术

技术编号:11214910 阅读:87 留言:0更新日期:2015-03-27 01:56
本发明专利技术涉及一种跨域集群计算资源聚合和分配的方法,包括以下步骤:建立并行计算管理平台;搭建跨域分布式多级集群资源池环境;集群资源登记和更新;集群任务资源分配;集群任务提交和结果回收。所述方法是指一种全局式集群资源管控及共享技术的体现。在实际运行中,一个分布式集群往往计算节点数量有限,当任务量较大时需要排队计算,因此会出现本地集群繁忙而别的集群空闲的情形,如果能将多个分布式集群联合起来,实现资源共享,让忙碌的集群可以把任务调节到闲置的集群上,可以大大提高批量任务的处理速度。

【技术实现步骤摘要】

: 本专利技术涉及一种计算资源聚合和分配的方法,更具体涉及。
技术介绍
: 分布式计算一直是计算机领域的研究热点。随着网络技术及应用的不断发展,能否为用户提供高质量的服务技术已经成为衡量一个分布式应用是否成功的关键因素。虚拟计算环境是以互联网为基础,实现资源按需聚合与自主协同的服务平台。互联网上存在着极为丰富的资源,但由于资源节点所固有的高度的动态性与自治性,导致系统服务质量较难得到保证。 分布式系统是由多个分散的计算机经互连网络构成的统一计算机系统。其中各个物理的和逻辑的资源既相互配合又高度自治,能在全系统范围内实现资源管理和数据共享,动态的实现任务分配和功能分配,且能并行的运行分布式程序,它强调资源、任务、功能、数据和控制的全面分布,它们分布于各个物理上分散的计算机节点中,各个节点经过互连网络相互通信,构成统一的处理系统。 分布式系统具有高度的内聚性和透明性,内聚性是指分布式中的每一个节点都高度自治,有本地的数据库管理系统和应用软件,透明性是指每一个分布式节点对用户或者整个系统来讲都是透明的,涉及具体的数据处理、分布式计算时,看不出来是在本地还是远程,用户也不必关心自己的需求究竟是在哪个节点被执行的。 分布式集群由前述包括网关、调度、数据、计算节点,用户提交任务时向集群调度节点发起,调度节点收到该计算请求后向资源池申请资源,资源申请成功后,向目的集群发起计算命令消息。 在实际运行中,一个分布式集群往往计算节点数量有限,当任务量较大时需要排队计算,因此会出现本地集群繁忙而别的集群空闲的情形,如果能将多个分布式集群联合起来,实现资源共享,让忙碌的集群可以把任务调节到闲置的集群上,可以大大提高批量任务的处理速度。
技术实现思路
: 本专利技术的目的是提供,所述方法通过多级调度大规模分层分布式并行计算平台实现了数据和程序的预分配,减少了网络通信量,大大的提高了通信效率。 为实现上述目的,本专利技术采用以下技术方案:,包括以下步骤: (I)建立并行计算管理平台; (2)搭建跨域分布式多级集群资源池环境; (3)集群资源登记和更新; (4)集群任务资源分配; (5)集群任务提交和结果回收。 本专利技术提供的,所述步骤(I)中的平台包括若干个计算节点、调度节点、数据节点和网关服务器;所述计算节点负责数据并行计算;所述调度节点负责用户任务调度、控制以及结果回收;所述数据节点用于存放历史数据以及结果入库功能;所述网关服务器负责平台的统一对外接口,包括与其他系统的对接以及数据同步功能。 本专利技术提供的,所述步骤(2)中的搭建过程为:每个分级分布式集群通过网关将自己集群中的资源信息交给虚拟的集群资源池统一管理和分配,资源池自动将不同级别的集群按文件系统的方式将各个集群按树状结构进行存储和管理,级别和树状层次结构相对应,区域名是全网唯一:下级单位只能分配使用直属上级调度机构资源。 本专利技术提供的另一优选的,多级调度分层分布式所述并行计算平台通过采集资源信息流程和采用单节点管理,周期定时上报与任务调度主动下发资源信息采集控制指令相结合的方式,定时刷新和实时刷新实体机和机群资源信息;所述分布式集群的本地机群资源汇总信息通过调度服务器实时更新至跨域分布式并行计算平台统一计算资源池;通过节点管理按照机群任务调度下发的指令,在单节点内分配计算资源。 本专利技术提供的再一优选的,所述资源信息包括本集群计算节点个数、集群总核数、集群可用核数、集群级别、集群区域名、本集群上级区域名、调度节点IP信息和资源共享标识信息;所述信息均不借助第三方软件采集。 本专利技术提供的又一优选的,所述步骤 (3)中的登记和更新过程为:每个分布式集群上线时在资源池中建立自己的资源信息树节点,建立成功后再次上报资源更改自己在资源池中的资源信息;所述网关服务器应用收到本地集群资源上报消息后,调用资源池服务中心接口,查找树路径中对应的节点;如果找到了树路径中对应的节点,就更新数据;否则根据上级区域名查找上级区域在树中的路径,如果找到相应路径则新建节点和更新数据。 本专利技术提供的又一优选的,所述步骤 (4)中的任务资源分配过程包括: 所述本地集群的调度服务器应用收到本地计算请求后,分析任务配置文件得到该任务模板所需的总核数; 调用资源池信息查询结构找到本地集群资源信息,判断本地资源是否够用,如果够用就直接向本地集群调度节点下达计算命令消息; 如果本地资源不够用,重新查找资源池本地集群的上级集群是否有可用的集群资源,如果找到可用的资源,则根据对方网关IP地址信息将本地计算数据同步过去,再通过消息发送共享请求计算消息; 如果资源池中找不到可用集群,则将该任务按优先级顺序加入任务等待队列。 本专利技术提供的又一优选的,所述调度服务器应用包括用于监视资源池可用资源信息变化事件的监视事件线程;如果所述线程被触发,则检查任务队列是否有任务,如果有任务,再按所述步骤(4)为队列里的任务分配资源。 本专利技术提供的又一优选的,所述步骤 (5)中的任务提交和结果回收过程包括: 用户向本地集群调度节点提交计算任务; 本地集群的调度服务器应用收到计算请求后,进行任务分析,根据申请资源情况确定是否任务需要拆分;如果不拆分,则只向申请到的本地或者异地的集群发送计算指令消息;如果需要拆分,则重新生成计算任务配置文件,然后向两个或多个集群发送计算指令消息;如果需要向异地集群发送计算请求,则进行计算指令发送之前还要有计算数据同步到异地调度服务器; 本地集群或者是异地集群收到本方调度服务器计算指令后,由集群内部计算机制调用相应计算程序参与计算,当计算完成后,根据需要将结果返回到本方调度应用服务器; 调度服务器接收到异地共享集群调度节点返回的计算结果后,根据任务属性判断结果属于本集群计算还是远程异地集群计算,然后再调用入库程序进行入库操作。 本专利技术提供的又一优选的,当用户向本地集群调度节点提交计算任务时,调度节点向本集群网关节点和所有计算节点组播计算数据。 [0031 ] 和最接近的现有技术比,本专利技术提供技术方案具有以下优异效果 1、本专利技术的方法采用Paxos算法原理在多级调度环境中构建大规模分布式并行计算平台统一计算资源池,资源池信息运维分布式存储在各调度机构机群网关服务器; 2、本专利技术的方法通过Paxos算法实现了资源池中机群信息的动态变化协调一致性,任何一个机群信息都能被全网内各级调度机构机群网关服务器查询访问; 3、本专利技术的方法提出了多级调度资源统一分配和管理机制,为机群资源共享提供了技术支持; 4、本专利技术的方法通过多级调度大规模分层分布式并行计算平台实现了数据和程序的预分配,减少了网络通信量,大大的提高了通信效率; 5、本专利技术的方法通过分布式一体化调度方案下的多级调度大规模分层分布式并行计算平台解决了单点故障问题,实现了网络负载均衡,规避了资源利用不充分现象,提高了资源利用率。 【附图说明】 图1为本专利技术的多级调度任务共享机制示意图; 图2为本专利技术的分布式系统总体结构示意图; 图3为本专利技术的多集群资源池构成示意图; 图4为本专利技术的集群资源登记和更新流程图; 图5为本专利技术的集群任务资源分配流程本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201410770923.html" title="一种跨域集群计算资源聚合和分配的方法原文来自X技术">跨域集群计算资源聚合和分配的方法</a>

【技术保护点】
一种跨域集群计算资源聚合和分配的方法,其特征在于:包括以下步骤:(1)建立并行计算管理平台;(2)搭建跨域分布式多级集群资源池环境;(3)集群资源登记和更新;(4)集群任务资源分配;(5)集群任务提交和结果回收。

【技术特征摘要】
1.一种跨域集群计算资源聚合和分配的方法,其特征在于:包括以下步骤: (1)建立并行计算管理平台; (2)搭建跨域分布式多级集群资源池环境; (3)集群资源登记和更新; (4)集群任务资源分配; (5)集群任务提交和结果回收。2.如权利要求1所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(I)中的平台包括若干个计算节点、调度节点、数据节点和网关服务器;所述计算节点负责数据并行计算;所述调度节点负责用户任务调度、控制以及结果回收;所述数据节点用于存放历史数据以及结果入库功能;所述网关服务器负责平台的统一对外接口,包括与其他系统的对接以及数据同步功能。3.如权利要求2所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(2)中的搭建过程为:每个分级分布式集群通过网关将自己集群中的资源信息交给虚拟的集群资源池统一管理和分配,资源池自动将不同级别的集群按文件系统的方式将各个集群按树状结构进行存储和管理,级别和树状层次结构相对应,区域名是全网唯一:下级单位只能分配使用直属上级调度机构资源。4.如权利要求3所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:多级调度分层分布式所述并行计算平台通过采集资源信息流程和采用单节点管理,周期定时上报与任务调度主动下发资源信息采集控制指令相结合的方式,定时刷新和实时刷新实体机和机群资源信息;所述分布式集群的本地机群资源汇总信息通过调度服务器实时更新至跨域分布式并行计算平台统一计算资源池;通过节点管理按照机群任务调度下发的指令,在单节点内分配计算资源。5.如权利要求4所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述资源信息包括本集群计算节点个数、集群总核数、集群可用核数、集群级别、集群区域名、本集群上级区域名、调度节点IP信息和资源共享标识信息;所述信息均不借助第三方软件采集。6.如权利要求5所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(3)中的登记和更新过程为:每个分布式集群上线时在资源池中建立自己的资源信息树节点,建立成功后再次上报资源更改自己在资源池中的资源信息;所述网关服务器应用收到本地集群资源上报消息后,调用资源池服务中心接口,查找树路径中对应的节点;如...

【专利技术属性】
技术研发人员:周智强陈勇刘娜娜何春江郭中华
申请(专利权)人:国家电网公司中国电力科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1