一种集群训练节点分配方法、电子设备组成比例

技术编号:28783501 阅读:24 留言:0更新日期:2021-06-09 11:17
本发明专利技术涉及节点分配领域,尤其涉及一种集群训练节点分配方法、电子设备,包括:设置训练分配参数,提交集群训练任务;获取可用节点集合M,获取所有分组信息列表及选择的请求组别名称对应的节点列表,获取请求节点集合Y;获取预分配可用节点集合Z=M∩Y;检查预分配可用节点集合Z中的节点数是否满足请求节点数量;满足则建立容量为请求节点数量的分配执行节点集合;将指定节点放入分配执行节点集合;对预分配可用节点集合Z中的节点按优先级排序,并依次放入分配执行节点集合中直到装满;锁定分配执行节点,分发任务,开始任务训练。本发明专利技术的有益效果在于:优化节点分配方式,充分利用设备资源,减少训练任务的总体报错率、故障率。故障率。故障率。

【技术实现步骤摘要】
一种集群训练节点分配方法、电子设备


[0001]本专利技术涉及节点分配领域,尤其涉及一种集群训练节点分配方法、电子设备。

技术介绍

[0002]随着AI技术的发展,众多复杂的AI程序模型需要在计算集群上进行机器训练。由于多用户对集群节点资源的同时使用,在训练过程中,针对一个单机或多机训练任务,需要对节点计算机的资源进行分配。
[0003]现有技术中对节点计算机的分配是单向的、静态的,要么由用户直接选择训练组别训练节点计算机,要么系统根据剩余节点资源直接分配。并且除非用户主动禁用某报错较多的节点,在节点分配的时候一般不会根据运行状态进行调整,这种单向静态的分配方式难以实现计算资源分配的动态优化,让状态好的资源得到充分返回和利用。这容易造成资源分配不当,资源过载、报错较多,用户使用体验不佳的情况。

技术实现思路

[0004]本专利技术为克服上述的不足之处,目的在于提供一种集群训练节点分配方法、电子设备,动态调整节点分配,优化资源配置,提高用户体验。
[0005]本专利技术是通过以下方案达到上述目的:一种集群训练节点分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种集群训练节点分配方法,其特征在于,包括以下步骤:(1)设置训练分配参数,提交集群训练任务;所述训练分配参数包括组别名称、请求节点数量、也可以包括指定节点编号;(2)获取可用节点集合M,获取所有分组信息列表及选择的请求组别名称对应的节点列表,获取请求节点集合Y;(3)获取预分配可用节点集合Z,可用节点集合M和请求节点集合Y取交集得到预分配可用节点集合Z=M∩Y;(4)检查预分配可用节点集合Z中的节点数是否满足请求节点数量,不满足则返回步骤(1);满足则建立容量为请求节点数量的分配执行节点集合;(5)将指定节点放入分配执行节点集合;(6)对预分配可用节点集合Z中的节点按预设规则进行优先级排序,并依次放入分配执行节点集合中,直到分配执行节点集合容量装满;(7)锁定分配执行节点集合中的节点,将训练任务分发至分配执行节点,开始任务训练,训练过程中对节点运行状态进行监控。2.根据权利要求1所述的一种集群训练节点分配方法,其特征在于所述步骤(1)还包括选择训练环境组件选项,训练环境组件选项包括:镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称,所述配置参数包括系统资源分配参数。3.根据权利要求1所述的一种集群训练节点分配方法,其特征在于,所述可用...

【专利技术属性】
技术研发人员:郑达韡徐进
申请(专利权)人:杭州幻方人工智能基础研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1