用于处理计算任务的计算机集群布置及其操作方法技术

技术编号:8983319 阅读:183 留言:0更新日期:2013-08-01 02:04
本发明专利技术涉及一种计算机集群布置和一种用于所介绍计算机集群布置的操作方法。计算机集群布置包含计算节点CN,其将具体计算任务动态外包给增强器B。因此,增强器B到计算节点CN的分配技术得到介绍。该分配在运行时间动态发生。本发明专利技术找到在高性能集群技术中的应用。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种计算机集群布置。尤其是,它涉及一种具有改进的资源管理的计算机集群布置,改进的资源管理是关于用于处理规模可改变的计算任务以及复杂计算任务的计算节点的应用。本专利技术尤其指向一种用于处理计算任务的计算机集群布置和该计算机集群布置的一种操作方法。根据本专利技术的计算机集群布置使用加速功能性,其辅助计算节点完成给定的计算任务。此外,本专利技术还指向一种被配置成用于完成该方法的计算机程序产品以及一种用于储存该计算机程序产品的计算机可读介质。
技术介绍
在 本
已知的是,计算机集群布置包含包括至少一个处理器的计算节点以及与耦接计算节点紧密耦接的加速器,用于高资源要求的外包计算。加速器至计算节点的紧密耦接导致静态分配并且导致加速器的过度预订(subscription)或预订不足。这可以导致资源缺乏或可以导致资源过度供应。此外,加速器至计算节点的这种静态分配在加速器故障的情况下不提供容错。JoseDuato>Rafael Mayo等的出版物“rCUDA:reducing the number of GPU-basedaccelerators in high performance clusters (远程统一计算设备架构:减少高性能群集中基于图形处理器(GPU)的加速器的数量)”,高性能计算和模拟(HPCS)国际会议,出版日期:2010年6月28日-2010年7月2日,在第224-231页上,描述了一种在高性能集群中能够远程GPU加速,因而允许减少安装在集群上的加速器的数量的框架。这可以导致能源、采购、维护及空间的节省。耶路撒冷希伯来大学的计算机科学系的Amnon Barak等的出版物“A package foropen CL based heterogeneous computing on clusters with many GPU devices (一种用于对具有许多个GPU设备的集群进行基于开放运算语言(Open CL)的异构计算的包)”描述了一种用于对具有许多个GPU设备的集群运行OpenMP、C++、未修改的OpenCL的应用的包。此外,提供允许在一个托管节点(hosting-node)上应用以便透明地利用集群范围内设备的OpenCL规范的实施方式和应用编程接口(OpenMP API)的扩展。图1示出根据本
当前水平的计算机集群布置。该计算机集群布置包含数个计算节点CN,其是互相连接的并且共同计算一个计算任务。每个计算节点CN都与加速器Acc紧密耦接。从图1能够看出,计算节点CN包含加速器单元ACC,其与例如中央处理单元CPU的微处理器一起虚拟集成在计算节点CN上。如上所述,根据计算任务,加速器Acc至计算节点CN的固定稱接会导致加速器Acc的过度预订或预订不足。此外,在加速器Acc之一故障的情况下不提供容错。在根据图1的已知的计算机集群布置中,计算节点CN通过基础设施互相通信,其中加速器Acc不直接交换信息,但是需要计算节点CN联接(interfacing)基础设施IN,用于数据交换
技术实现思路
因此,本专利技术的一个目的是提供一种计算机集群布置,其允许关于加速器和计算节点之间数据交换的通信灵活性以及计算节点至任何一个和每个加速器的直接存取。此夕卜,本专利技术的一个目的是在运行时间提供一种加速器至计算节点的动态耦接。这些目的通过具有根据专利权利要求1所述的特征的计算机集群布置来解决。因此,提供一种用于处理计算任务的计算机集群布置,该计算机集群布置包含:-多个计算节点,每个计算节点都联接通信基础设施,至少两个计算节点被布置成共同计算计算任务的至少第一部分;-至少一个增强器,其被布置成计算计算任务的至少第二部分,每个增强器都联接通信基础设施;和-资源管理器,其被布置成将至少一个增强器分配给多个计算节点中的至少一个计算节点,用于计算任务的第二部分的计算,该分配依据预定分配度量的一个功能而完成。在这个计算机集群布置中,通过独立的增强器提供加速功能。所描述计算机集群布置允许那些增强器至计算节点的弱耦接,其也可以被称为计算节点。因此,在此通过计算节点共享具有增强器形式的加速器是可行的。对增强器至计算节点的分配而言,可以提供具有资源管理器模块或资源管理器节点形式的资源管理器。资源管理器可以在开始处理计算任务时建立静态分配。可选地或附加地是,可以在运行时间建立动态分配,其意味着在处理计算任务期间。资源管理器被布置成将分配信息提供给计算节点,以便用于计算任务从至少一个计算节点到至少一个增强器的外包部分。资源管理器可以被实施为具体的硬件单元、虚拟单元或其任何组合。尤其是,可以通过下列任何一个来形成资源管理器:微处理器、硬件组件、虚拟化硬件组件或守护器。此外,部分资源管理器可以在系统上分布并且经由通信基础设施进行通信。增强器之间的通信通过网络协议完成。因此,增强器分配依据应用需要而被执行,其意味着依赖于处理具体计算任务。在增强器故障的情况下提供容错并且规模可变性被促进。当增强器独立于计算节点被提供时,通过支持渐增的系统开发使得规模可改变性成为可能。因此,计算节点的数量和所提供增强器的数量可以不同。因而,建立在提供硬件资源中的最大灵活性。此外,所有计算节点都共享相同的成长容量(growth capacity)。计算任务可以借助于算法、源代码、二进制代码进行定义并且还可以是它们的任何组合。计算任务可以例如是模拟,其通过计算机集群布置进行计算。此外,计算任务可以包含数个子问题,也被称为子任务,其全面描述整个计算任务。将计算任务分成数个部分是可能的,例如计算任务的至少第一部分和计算任务的至少第二部分。对于计算机集群布置而言,并行或顺序解决部分计算任务也是可能的。每个计算节点都联接通信基础设施,也被称为互相连接。类似地是,每个增强器都联接通信基础设施。因此,计算节点以及增强器借助于通信基础设施进行交互。因此,每个计算节点都通过通信基础设施与每个增强器通信,从计算节点到增强器交换数据时无需涉及另一个通信节点。因而,计算节点到增强器的动态分配得以建立,其中计算节点处理至少一部分计算任务并且不需要从一个计算节点到一个增强器传递信息。因此,将增强器直接耦接至通信基础设施,不需 要如本
当前水平通常实施的中间计算节点的是可能的。为了完成增强器和计算节点之间的分配,需要具体的规则集(set of rules)。因此,提供分配度量,其作为决定哪一个增强器与哪一个计算节点耦接的基础。分配度量可以通过资源管理器进行管理。管理分配度量指的是建立和更新命名至少一个增强器的规则,其被分配给至少一个其他被命名的计算节点。因此,在运行时间更新分配度量是可能的。这种分配规则可以依据负荷平衡而被产生,其探测计算机集群布置的工作负荷,尤其是增强器的工作负荷。此外,探测增强器的计算容量并且还探测计算任务要求及分配选定的增强器是可能的,其给计算节点提供所需容量。为了确定增强器到计算节点的初始分配,分配度量被预定,但可以在运行时间改变。因此,在开始处理计算任务时提供静态分配,而在运行时间提供动态分配。在本专利技术的一个实施例中,根据度量规范技术组中至少一个形成确定的分配度量,该组包含:时序逻辑、分配矩阵、分配表、概率函数和成本函数。因此,可以为分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:托马斯·利珀特
申请(专利权)人:托马斯·利珀特派泰克集群能力中心有限公司
类型:
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1