一种基于6D-Torus网络的作业调度方法和装置制造方法及图纸

技术编号:18496792 阅读:96 留言:0更新日期:2018-07-21 20:02
本发明专利技术公开了一种基于6D‑Torus网络的作业调度方法和装置,该基于6D‑Torus网络的作业调度方法包括:根据预设的命名规则,计算6D‑Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D‑Torus网络中的计算节点,以为用户节点划分资源。本发明专利技术通过根据预设的命名规则,计算6D‑Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D‑Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D‑Torus网络的计算资源动态分配、弹性扩展的效果。

A job scheduling method and device based on 6D-Torus network

The invention discloses a job scheduling method and device based on the 6D Torus network. The operation scheduling method based on the 6D Torus network includes: calculating the serial number of the computing node in the 6D Torus network according to the preset naming rules, obtaining the job resource request information of the user node, and the request letter according to the job resource. The sequence number of the computing node is traversed and the computing nodes in the 6D Torus network are traversed to divide the resources into the user nodes. This invention calculates the serial number of the computing node in the 6D Torus network according to the default naming rules, then gets the request information of the job resource of the user node, and according to the request information of the job resource and the serial number of the node, traverses the computing node in the 6D Torus network, so that the user node divides the resource, thus through the node. Through the computation of node naming rules, the effect of dynamic allocation and flexible expansion of computing resources based on 6D Torus network is achieved.

【技术实现步骤摘要】
一种基于6D-Torus网络的作业调度方法和装置
本专利技术涉及作业调度领域,具体来说,涉及一种基于6D-Torus网络的作业调度方法和装置。
技术介绍
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本,深度学习典型应用为图像识别和语音识别。此外,目前大型超级计算机,特别是准E级或未来的E级系统,在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。同时,硅元交换机是采用Torus架构的高速网络交换机产品,基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、极佳的容错能力。在6DTorus互联网络中,如图1所示,一个硅立方由若干个硅元按照长、宽、高三个维度逐级扩展的结构进行排列,即该硅立方中的每个断点均为硅元,如图2所示,每个硅元内部由12个交换芯片采用特殊的3DTorus互连,同时,每个交换芯片可以看成一个交换机,一般具有24个端口,用于连接计算节点或者其他交换芯片。另外,现有技术的重点在于处理硬件资源的容器化以及提高容器编排管理技术等方面的问题,通过将完成从“虚拟机”到“容器(容器通过容器技术获得)”、“独石应用”到“云原生应用”的迁移转变,来提高整个集群的资源利用率,缩短软件的快速开发部署上线时间。但是,针对节点与容器之间的映射,从网络拓扑结构的方面考虑较少,同时,目前还没有针对硬件资源的特定网络拓扑结构(尤其6D-Torus网络),实现资源调度策略的技术方案。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的问题,本专利技术提出一种基于6D-Torus网络的作业调度方法和装置。本专利技术的技术方案是这样实现的:根据本专利技术的一个方面,提供了一种基于6D-Torus网络的作业调度方法。该基于6D-Torus网络的作业调度方法包括:根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。根据本专利技术的一个实施例,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号之前包括:根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及根据计算节点所处的交换芯片的端口号,计算计算节点的序号。根据本专利技术的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源。根据本专利技术的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源。根据本专利技术的另一方面,提供了一种基于6D-Torus网络的作业调度装置。该基于6D-Torus网络的作业调度装置包括:第一计算模块,用于根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;获取遍历模块,用于获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。根据本专利技术的一个实施例,第一计算模块包括:第二计算模块,用于根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及第三计算模块,用于根据计算节点所处的交换芯片的端口号,计算计算节点的序号。根据本专利技术的一个实施例,获取遍历模块包括:选取模块,用于在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;第一遍历模块,用于根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源。根据本专利技术的一个实施例,获取遍历模块包括:划分排序模块,用于将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;第二遍历模块,用于根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源。本专利技术的有益技术效果在于:本专利技术通过根据预设的命名规则,计算6D-Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D-Torus网络的计算资源动态分配、弹性扩展的效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是现有技术中的硅立方的示意图;图2是现有技术中的硅元的示意图;图3是根据本专利技术实施例的基于6D-Torus网络的作业调度方法的示意图;图4是现有技术中的典型深度学习平台结构的示意图;图5是根据本专利技术实施例的深度学习平台结构的示意图;图6是根据本专利技术实施例的资源组队列的示意图;图7是根据本专利技术实施例的基于6D-Torus网络的作业调度装置的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。根据本专利技术的实施例,提供了一种基于6D-Torus网络的作业调度方法。如图3所示,根据本专利技术实施例的基于6D-Torus网络的作业调度方法包括:步骤S301,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;步骤S303,获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。借助于本专利技术的上述技术方案,通过根据预设的命名规则,计算6D-Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D-Torus网络的计算资源动态分配、弹性扩展的效果。根据本专利技术的一个实施例,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号之前包括:根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及根据计算节点所处的交换芯片的端口号,计算计算节点的序号。根据本专利技术的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:在6D-Torus网本文档来自技高网...

【技术保护点】
1.一种基于6D‑Torus网络的作业调度方法,其特征在于,包括:根据预设的命名规则,计算所述6D‑Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D‑Torus网络中的计算节点,以为所述用户节点划分资源。

【技术特征摘要】
1.一种基于6D-Torus网络的作业调度方法,其特征在于,包括:根据预设的命名规则,计算所述6D-Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。2.根据权利要求1所述的作业调度方法,其特征在于,根据预设的命名规则,计算所述6D-Torus网络中的计算节点的序号之前包括:根据预设的命名规则,计算所述6D-Torus网络中硅元的序号和每个所述硅元中的交换芯片的序号;以及根据所述计算节点所处的交换芯片的端口号,计算所述计算节点的序号。3.根据权利要求2所述的作业调度方法,其特征在于,根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源包括:在所述6D-Torus网络中的所有计算节点中,选取一个所述计算节点作为初始节点;根据所述作业资源请求信息和所述计算节点的序号,从所述初始节点开始遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。4.根据权利要求2所述的作业调度方法,其特征在于,根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源包括:将每个所述交换芯片划分为一个资源组,以及根据所述交换芯片的序号,对所有所述资源组进行排序;根据所述作业资源请求信息和排序后的资源组,遍历所述所述6D...

【专利技术属性】
技术研发人员:王雄斌
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1