当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于算力网络的分布式机器学习调度方法和系统技术方案

技术编号:39713886 阅读:7 留言:0更新日期:2023-12-17 23:22
本发明专利技术公开了一种基于算力网络的分布式机器学习调度方法,包括:服务节点设置全局迭代计数器

【技术实现步骤摘要】
一种基于算力网络的分布式机器学习调度方法和系统


[0001]本专利技术属于算力网络和分布式机器学习调度
,更具体地,涉及一种基于算力网络的分布式机器学习调度方法和系统


技术介绍

[0002]随着云计算

大数据等新兴信息技术业务应用的规模落地,新业务对算力需求越来越高,灵活性

易扩展和简单易用成为未来算力网络必须具备的基本能力

其中分布式计算技术与异构计算技术因其能够有效的获取高性能计算能力

灵活易扩展

开发潜力巨大,成为了当前领域的研究热点之一;其中机器学习训练任务需要大量算力提供支撑,所以分布式机器学习调度技术应运而生,分布式机器学习调度是将机器学习算法与分布式计算相结合,通过将大规模数据和计算任务分发到多个计算节点上进行并行处理

[0003]现存的分布式机器学习调度方法基于两种架构,分别是迭代式架构和参数服务器架构;迭代式架构是基于
MapReduce
开发,主要适用于同步以及数据并行的应用场景,目前已经存在许多成熟的迭代式架构系统,如
Hadoop
以及
Spark
等;参数服务器架构的设计是为了解决迭代式架构同步效率差

鲁棒性欠佳的问题,并且表现出优秀的性能

[0004]然而,上述两种分布式机器学习调度方法仍存在一些问题

第一

对于迭代式架构而言,在每次迭代中需要等待所有节点的计算完成才能进行下一轮迭代,这会导致较高的同步开销和额外的等待时间;第二

对于参数服务器结构而言,服务器需要与各个计算节点之间进行频繁的通信,特别是在算力网络场景中,会产生较高的通信开销,成为性能瓶颈;第三

这两种分布式机器学习调度方法对于节点故障问题缺少简单易用的解决方式,鲁棒性较差


技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于算力网络的分布式机器学习调度方法和系统,其目的在于,解决现有迭代式架构在每次迭代中需要等待所有节点的计算完成才能进行下一轮迭代,从而导致较高的同步开销和额外的等待时间的技术问题,以及现有参数服务器结构,由于服务器需要与各个计算节点之间进行频繁的通信,导致会产生较高的通信开销的技术问题,以及上述两种分布式机器学习调度方法对于节点故障问题缺少简单易用的解决方式,鲁棒性较差的技术问题

[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于算力网络的分布式机器学习调度方法,包括以下步骤:
[0007](1)
服务节点设置全局迭代计数器
i
=1;
[0008](2)
服务节点判断
i
是否等于预先设定的阈值,如果是则服务节点向预先建立的工作节点列表中的工作节点发送结束指令,并且过程结束,否则进入步骤
(3)

[0009](3)
服务节点获取第
i
轮迭代时该服务节点的数据
Q
s

<d,h,l
i
,w
s
,D>
,其中,
d
表示服务节点设置的延迟迭代阈值,
h
表示训练过程中预先设置的机器学习模型的超参数,
l
i

示第
i
次局部迭代时的工作节点列表,
w
s
表示服务节点的权重文件,
D
表示训练集

[0010](4)
服务节点读取步骤
(3)
得到的服务节点的数据
Q
s
中第
i
次局部迭代时的工作节点列表
l
i
,并将数据
Q
s
分别发送到该工作节点列表
l
i
中的所有工作节点;
[0011](5)
每个工作节点对来自服务节点的数据
Q
s
执行局部迭代操作,以获取机器学习模型的训练结果和该工作节点的计算资源信息,并将机器学习模型的训练结果和该工作节点的计算资源信息发送到服务节点;
[0012](6)
服务节点对步骤
(5)
得到的机器学习模型的训练结果中的所有权重文件进行加权平均操作,以得到平均权重文件;
[0013](7)
服务节点对步骤
(3)
得到的第
i
轮迭代时服务节点的数据中的工作节点列表,服务节点删除超时工作节点,增加空闲工作节点,以得到新工作节点列表

[0014](8)
服务节点将步骤
(3)
得到的第
i
轮迭代时服务节点的数据中的权重文件和工作节点列表分别更新为步骤
(6)
得到的平均权重文件和步骤
(7)
得到的新工作节点列表,以获得第
i+1
轮迭代时服务节点的数据;
[0015](9)
设置全局迭代计数器
i

i+1
,并返回步骤
(2)。
[0016]优选地,步骤
(5)
包括以下子步骤:
[0017](5

1)
每个工作节点设置局部迭代计数器
j
=1;
[0018](5

2)
每个工作节点判断
j
是否等于预先设定的阈值
(
该阈值的取值与步骤
(2)
中的阈值完全相同
)
,如果是则进入步骤
(5

6)
,否则进入步骤
(5

3)

[0019](5

3)
每个工作节点获取其权重文件和步骤
(3)
得到的数据
Q
s
中的训练集
D
,并对得到的权重文件和训练集进行随机梯度下降处理,以得到处理后的梯度数据;
[0020](5

4)
每个工作节点获取步骤
(5

3)
处理后的梯度数据,并根据处理后的梯度数据和步骤
(3)
得到的服务节点的数据
Q
s
中预先设置的机器学习模型的超参数
h
更新该工作节点的权重文件,以得到处理后的权重文件

[0021](5

5)
每个工作节点设置局部迭代计数器
j

j本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于算力网络的分布式机器学习调度方法,其特征在于,包括以下步骤:
(1)
服务节点设置全局迭代计数器
i
=1;
(2)
服务节点判断
i
是否等于预先设定的阈值,如果是则服务节点向预先建立的工作节点列表中的工作节点发送结束指令,并且过程结束,否则进入步骤
(3)

(3)
服务节点获取第
i
轮迭代时该服务节点的数据
Q
s

<d,h,l
i
,w
s
,D>
,其中,
d
表示服务节点设置的延迟迭代阈值,
h
表示训练过程中预先设置的机器学习模型的超参数,
l
i
表示第
i
次局部迭代时的工作节点列表,
w
s
表示服务节点的权重文件,
D
表示训练集
。(4)
服务节点读取步骤
(3)
得到的服务节点的数据
Q
s
中第
i
次局部迭代时的工作节点列表
l
i
,并将数据
Q
s
分别发送到该工作节点列表
l
i
中的所有工作节点;
(5)
每个工作节点对来自服务节点的数据
Q
s
执行局部迭代操作,以获取机器学习模型的训练结果和该工作节点的计算资源信息,并将机器学习模型的训练结果和该工作节点的计算资源信息发送到服务节点;
(6)
服务节点对步骤
(5)
得到的机器学习模型的训练结果中的所有权重文件进行加权平均操作,以得到平均权重文件;
(7)
服务节点对步骤
(3)
得到的第
i
轮迭代时服务节点的数据中的工作节点列表,服务节点删除超时工作节点,增加空闲工作节点,以得到新工作节点列表
。(8)
服务节点将步骤
(3)
得到的第
i
轮迭代时服务节点的数据中的权重文件和工作节点列表分别更新为步骤
(6)
得到的平均权重文件和步骤
(7)
得到的新工作节点列表,以获得第
i+1
轮迭代时服务节点的数据;
(9)
设置全局迭代计数器
i

i+1
,并返回步骤
(2)。2.
根据权利要求1所述的基于算力网络的分布式机器学习调度方法,其特征在于,步骤
(5)
包括以下子步骤:
(5

1)
每个工作节点设置局部迭代计数器
j
=1;
(5

2)
每个工作节点判断
j
是否等于预先设定的阈值
(
该阈值的取值与步骤
(2)
中的阈值完全相同
)
,如果是则进入步骤
(5

6)
,否则进入步骤
(5

3)

(5

3)
每个工作节点获取其权重文件和步骤
(3)
得到的数据
Q
s
中的训练集
D
,并对得到的权重文件和训练集进行随机梯度下降处理,以得到处理后的梯度数据;
(5

4)
每个工作节点获取步骤
(5

3)
处理后的梯度数据,并根据处理后的梯度数据和步骤
(3)
得到的服务节点的数据
Q
s
中预先设置的机器学习模型的超参数
h
更新该工作节点的权重文件,以得到处理后的权重文件
。(5

5)
每个工作节点设置局部迭代计数器
j

j+1
,并返回步骤
(5

2)

(5

6)
每个工作节点向服务节点发送机器学习模型的训练结果
Q
n
和该工作节点的计算资源信息
C
n
,过程结束,其中
n∈[1
,工作节点列表中工作节点的数量
]。3.
根据权利要求1或2所述的基于算力网络的分布式机器学习调度方法,其特征在于,机器学习模型的训练结果
Q
n

<g
n
,w
...

【专利技术属性】
技术研发人员:李肯立高梓文张嘉鹏唐卓肖正田泽安秦云川
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1