一种集群中作业调度方法、系统、电子设备、存储介质技术方案

技术编号:38005261 阅读:6 留言:0更新日期:2023-06-30 10:20
本发明专利技术属于高性能集群中作业调度技术领域,具体提供一种集群中作业调度方法、系统、电子设备、存储介质,所述方法包括如下步骤:根据用户提交的任务参数生成作业任务;根据任务情况获取执行作业任务所需的计算节点数;获取集群中的各个计算节点之间的通信延迟;根据通信延迟的大小选择所需的计算节点;根据作业任务,在选择的计算节点创建容器进行作业任务执行。将传统的节点单一任务执行方式,换成通过节点通信情况选择节点,从而提升集群中资源利用率,提升集群计算性能。提升集群计算性能。提升集群计算性能。

【技术实现步骤摘要】
一种集群中作业调度方法、系统、电子设备、存储介质


[0001]本专利技术涉及高性能集群中作业调度
,具体涉及一种集群中作业调度方法、系统、电子设备、存储介质。

技术介绍

[0002]计算机集群,简称集群,是一种计算机系统,其通过多个计算机(又称为计算资源,诸如软件和/或硬件资源)连接起来协作完成计算作业。这些计算资源位于同一管理域中,其具有统一的管理策略并且作为一个整体向用户提供服务。集群系统中的单个计算机通常称为节点或者计算节点。
[0003]高性能计算节点的操作系统一般采用Linux操作系统,由于协处理器加速卡、高速互联网络等都需要相应的驱动程序支持,使得计算节点的操作系统安装部署和后续软件升级维护工作,变得异常复杂。尤其对于计算节点数目庞大的高性能计算集群,必须有相应的集群管理软件,进行计算节点中操作系统的安装、配置和维护。
[0004]而现有技术中,随着计算机集群处理技术的发展,超级计算机性能越来越高。集群系统通常需要支持高性能计算(High Performance Computing,HPC)任务的计算,还要支持其他任务的计算。集群管理系统会根据用户的需求进行作业调度,分配计算资源,提供合适的计算服务。当集群中节点数量庞大时,尤其是涉及云平台和本地集群综合使用的场景下,通常采用基于融合以太网的RDMA(remotedirect memory access over converged ethernet,RDMA over converged ethernet,RoCE),即当基于RoCE网络的本地HPC集群的计算资源不足以支持高性能计算时,本地HPC集群将向云平台申请计算资源。于是,云平台将在云上重建一个HPC集群,并且,云平台将来自本地HPC集群的任务和任务对应的数据发送给云上的HPC集群中的云资源控制节点,由云资源控制节点将前述任务和任务对应的数据分配给云计算节点,以使得云计算节点根据前述任务执行高性能计算。在此过程中,需要本地的HPC集群中的本地资源控制节点对本地的任务进行划分。但是,高性能计算过程的任务繁重且不易划分,并且,将前述任务对应的数据传输至云平台也将受传输带宽的限制,以及大量计算节点间的消息传递速度的问题,使得需要固定化子集群的处理,即执行单一任务来降低通信量,这样会使得集群的硬件资源的利用率低。

技术实现思路

[0005]高性能计算过程的任务繁重且不易划分,并且,将前述任务对应的数据传输至云平台也将受传输带宽的限制,以及大量计算节点间的消息传递速度的问题,使得需要固定化子集群的处理,即执行单一任务来降低通信量,这样会使得集群的硬件资源的利用率低,本专利技术一种集群中作业调度方法、系统、电子设备、存储介质。
[0006]第一方面,本专利技术技术方案提供一种集群中作业调度方法,包括如下步骤:
[0007]根据用户提交的任务参数生成作业任务;
[0008]根据任务情况获取执行作业任务所需的计算节点数;
[0009]获取集群中的各个计算节点之间的通信延迟;
[0010]根据通信延迟的大小选择所需的计算节点;
[0011]根据作业任务,通过开源的应用容器引擎Docker在选择的计算节点创建容器进行作业任务执行。
[0012]作为本专利技术技术方案的进一步限定,获取集群中的各个计算节点之间的通信延迟的步骤包括:
[0013]获取各个计算节点之间的通信路径的链路信息;
[0014]根据各个计算节点之间的通信路径的链路信息确定各个计算节点之间的通信延迟。
[0015]作为本专利技术技术方案的进一步限定,获取各个计算节点之间的通信路径的链路信息的步骤之前包括:
[0016]将IP网段进行配置,自动将计算节点配置在不同IP网段;
[0017]通过IP网段的配置来进行各计算节点网络结构的获取,从而确定通信链路。
[0018]作为本专利技术技术方案的进一步限定,根据通信延迟的大小选择所需的计算节点的步骤包括:
[0019]将获取的通信延迟由小到大进行排序;
[0020]按照通信延迟由小到大的顺序选取用于执行所述作业任务的计算节点,直至所选取的计算节点的数量达到所需的计算节点数。
[0021]作为本专利技术技术方案的进一步限定,该方法还包括:
[0022]在选择计算节点的过程中,将云平台节点与本地节点进行统一化处理,具体包括:将云平台节点越过操作系统接收来自本地网络的任务,并越过操作系统访问本地网络中任务对应的数据;在进行计算节点获取时,将云平台节点作为计算节点加入到本地集群中。
[0023]作为本专利技术技术方案的进一步限定,该方法还包括:
[0024]创建目标容器时,将IP网段进行配置,自动将计算节点配置在不同IP网段;容器的创建依据任务标识和节点标识来选择计算节点。
[0025]作为本专利技术技术方案的进一步限定,该方法还包括:
[0026]以设置父子节点的方式,对计算节点进行编组,即划分层级,具体包括:
[0027]通过对IP网段配置,将整个集群划分为多组,对归属同一交换机的节点进行聚合通信,采用RDMA技术进行节点间内存资源的分配借用。
[0028]第二方面,本专利技术技术方案还提供一种集群中作业调度系统,包括主节点和计算节点,主节点,用于根据用户提交的任务参数生成作业任务;根据任务情况获取执行作业任务所需的计算节点数;获取集群中的各个计算节点之间的通信延迟;根据通信延迟的大小选择所需的计算节点;根据作业任务,通过开源的应用容器引擎Docker在选择的计算节点创建容器进行作业任务执行;
[0029]计算节点,用于获取作业任务并反馈本节点状态给主节点。
[0030]作为本专利技术技术方案的进一步限定,主节点,用于获取各个计算节点之间的通信路径的链路信息;根据各个计算节点之间的通信路径的链路信息确定各个计算节点之间的通信延迟;将IP网段进行配置,自动将计算节点配置在不同IP网段;通过IP网段的配置来进行各计算节点网络结构的获取,从而确定通信链路;将获取的通信延迟由小到大进行排序;
按照通信延迟由小到大的顺序选取用于执行所述作业任务的计算节点,直至所选取的计算节点的数量达到所需的计算节点数。
[0031]作为本专利技术技术方案的进一步限定,主节点在选择计算节点的过程中,将云平台节点与本地节点进行统一化处理,具体包括:将云平台节点越过操作系统接收来自本地网络的任务,并越过操作系统访问本地网络中任务对应的数据;在进行计算节点获取时,将云平台节点作为计算节点加入到本地集群中;创建目标容器时,将IP网段进行配置,自动将计算节点配置在不同IP网段;容器的创建依据任务标识和节点标识来选择计算节点。
[0032]作为本专利技术技术方案的进一步限定,主节点,以设置父子节点的方式,对计算节点进行编组,即划分层级,具体包括:通过对IP网段配置,将整个集群划分为多组,对归属同一交换机的节点进行聚合通信,采用RDMA技术进行节点间内存资源的分配借用。
...

【技术保护点】

【技术特征摘要】
1.一种集群中作业调度方法,其特征在于,包括如下步骤:根据用户提交的任务参数生成作业任务;根据任务情况获取执行作业任务所需的计算节点数;获取集群中的各个计算节点之间的通信延迟;根据通信延迟的大小选择所需的计算节点;根据作业任务,在选择的计算节点创建容器进行作业任务执行。2.根据权利要求1所述的集群中作业调度方法,其特征在于,获取集群中的各个计算节点之间的通信延迟的步骤包括:获取各个计算节点之间的通信路径的链路信息;根据各个计算节点之间的通信路径的链路信息确定各个计算节点之间的通信延迟。3.根据权利要求2所述的集群中作业调度方法,其特征在于,获取各个计算节点之间的通信路径的链路信息的步骤之前包括:将IP网段进行配置,自动将计算节点配置在不同IP网段;通过IP网段的配置来进行各计算节点网络结构的获取,从而确定通信链路。4.根据权利要求3所述的集群中作业调度方法,其特征在于,根据通信延迟的大小选择所需的计算节点的步骤包括:将获取的通信延迟由小到大进行排序;按照通信延迟由小到大的顺序选取用于执行所述作业任务的计算节点,直至所选取的计算节点的数量达到所需的计算节点数。5.根据权利要求1所述的集群中作业调度方法,其特征在于,该方法还包括:在选择计算节点的过程中,将云平台节点与本地节点进行统一化处理,具体包括:将云平台节点越过操作系统接收来自本地网络的任务,并越过操作系统访问本地网络中任务对应的数据;在进行计算节点获取时,将云平台节点作为计算节点加入到本地集群中。6.根据权...

【专利技术属性】
技术研发人员:马志伟宋辰
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1