当前位置: 首页 > 专利查询>之江实验室专利>正文

一种面向分布式集群的任务执行方法、装置、介质及设备制造方法及图纸

技术编号:38134485 阅读:9 留言:0更新日期:2023-07-08 09:44
本说明书公开了一种面向分布式集群的任务执行方法、装置、介质及设备。所述面向分布式集群的任务执行方法包括:获取样本数据,根据磁盘带宽和本地延迟,以及网络带宽和网络延迟,对样本数据的数量进行划分,将第一样本数量的样本数据存储在各计算节点的本地磁盘,将第二样本数量的样本数据存储在存储节点,针对每个计算节点,将该计算节点的本地磁盘中指定数量的样本数据与其他计算节点的本地磁盘中的样本数据进行交换,得到更新后样本数据,以及,从所述存储节点中读取远端样本数据,根据更新后本地样本数据和远端样本数据,在该计算节点上执行当前训练周期针对目标模型的训练任务。任务。任务。

【技术实现步骤摘要】
一种面向分布式集群的任务执行方法、装置、介质及设备


[0001]本说明书涉及计算机
,尤其涉及一种面向分布式集群的任务执行方法、装置、介质及设备。

技术介绍

[0002]随着深度学习在诸如图像识别、音频识别和自然语言处理等领域的广泛应用,深度神经网络的训练已经成为分布式系统上越来越重要的工作负载。研究表明,随着硬件加速器和加速算法带来的性能提升,以及通信基础设施的完善,模型训练过程中集群的性能瓶颈主要转移到训练样本的输入/输出(Input/Output,I/O)上。
[0003]然而,目前在模型训练过程中样本数据的输入、输出方式较为单一,并没有全面的利用不同渠道的存储资源以及传输优势,对于一些样本数据的数据量较为庞大的训练任务,无法实现模型训练过程中系统性能的最大化,导致样本数据在输入、输出的过程中耗费较长时间,严重降低了训练效率。
[0004]因此,如何有效利用不同渠道的存储资源以及优势,提高分布式系统在模型训练过程中的性能,进一步提高训练效率,是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种面向分布式集群的任务执行方法、装置、介质及设备,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种面向分布式集群的任务执行方法,包括:获取对目标模型进行训练的样本数据;根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,得到第一样本数量以及第二样本数量;将所述第一样本数量的样本数据存储在各计算节点的本地磁盘,将所述第二样本数量的样本数据存储在所述存储节点;针对每个计算节点,在接收到当前训练周期的训练请求后,将该计算节点的本地磁盘中指定数量的样本数据,与其他计算节点的本地磁盘中所述指定数量的样本数据进行交换,得到该计算节点中的更新后样本数据;访问所述存储节点,从所述存储节点中读取所述训练请求所需的样本数据,作为远端样本数据;根据所述更新后样本数据和所述远端样本数据,在该计算节点上执行所述当前训练周期针对所述目标模型的训练任务。
[0007]可选地,根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行
划分,具体包括:根据样本数据的总数量、预设的带宽权重、预设的延迟权重,所述磁盘带宽和所述本地延迟,确定所述第一样本数量,以及,根据所述样本数据的总数量、所述带宽权重、所述延迟权重,所述网络带宽和所述网络延迟,确定所述第二样本数量。
[0008]可选地,所述带宽权重大于所述延迟权重。
[0009]可选地,根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,具体包括:根据所述磁盘带宽以及所述网络带宽,分别对所述磁盘带宽和所述网络带宽进行归一化处理,得到归一化磁盘带宽和归一化网络带宽,以及,根据所述本地延迟以及所述网络延迟,分别对所述本地延迟和所述网络延迟进行归一化处理,得到归一化本地延迟和归一化网络延迟;根据所述归一化磁盘带宽、所述归一化网络带宽、所述归一化本地延迟以及所述归一化网络延迟,对所述样本数据进行划分。
[0010]可选地,在接收到训练请求之前,所述方法还包括:针对每个计算节点,定义该计算节点对应的数据加载接口;根据所述更新后样本数据和所述远端样本数据,在该计算节点上执行所述当前训练周期针对所述目标模型的训练任务,具体包括:通过所述数据加载接口,合并所述更新后样本数据和所述远端样本数据,得到目标样本数据,并向该计算节点返回所述目标样本数据。
[0011]可选地,所述方法还包括:若所述训练请求所需的样本数据的索引小于存储在该计算节点的本地磁盘中的样本数据的数量,则不从所述存储节点中读取所述远端样本数据。
[0012]可选地,所述方法还包括:针对该计算节点对所述目标模型的每个训练周期,在该训练周期的训练开始后随机生成该训练周期所对应的数据访问序列;根据所述数据访问序列,确定所述存储节点中各远端样本数据对应的访问次序,并按照所述访问次序将该训练周期对应的各远端样本数据存储在所述存储节点的缓存中;在接收到下一批次的训练请求后,按照所述各远端样本数据对应的访问次序,对存储在所述缓存中的各远端样本数据进行替换。
[0013]本说明书提供了一种面向分布式集群的任务执行装置,包括:获取模块,获取对目标模型进行训练的样本数据;划分模块,根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,得到第一样本数量以及第二样本数量;存储模块,将所述第一样本数量的样本数据存储在各计算节点的本地磁盘,将所述第二样本数量的样本数据存储在所述存储节点;交换模块,针对每个计算节点,在接收到当前训练周期的训练请求后,将该计算节点的本地磁盘中指定数量的样本数据,与其他计算节点的本地磁盘中所述指定数量的样本
数据进行交换,得到该计算节点中的更新后样本数据;访问模块,访问所述存储节点,从所述存储节点中读取所述训练请求所需的样本数据,作为远端样本数据;读取模块,根据所述更新后样本数据和所述远端样本数据,在该计算节点上执行所述当前训练周期针对所述目标模型的训练任务。
[0014]可选地,所述划分模块具体用于,根据样本数据的总数量、预设的带宽权重、预设的延迟权重,所述磁盘带宽和所述本地延迟,确定所述第一样本数量,以及,根据所述样本数据的总数量、所述带宽权重、所述延迟权重,所述网络带宽和所述网络延迟,确定所述第二样本数量。
[0015]可选地,所述带宽权重大于所述延迟权重。
[0016]可选地,所述划分模块具体用于,根据所述磁盘带宽以及所述网络带宽,分别对所述磁盘带宽和所述网络带宽进行归一化处理,得到归一化磁盘带宽和归一化网络带宽,以及,根据所述本地延迟以及所述网络延迟,分别对所述本地延迟和所述网络延迟进行归一化处理,得到归一化本地延迟和归一化网络延迟;根据所述归一化磁盘带宽、所述归一化网络带宽、所述归一化本地延迟以及所述归一化网络延迟,对所述样本数据进行划分。
[0017]可选地,在接收到训练请求之前,所述划分模块还用于,针对每个计算节点,定义该计算节点对应的数据加载接口;所述读取模块具体用于,通过所述数据加载接口,合并所述更新后样本数据和所述远端样本数据,得到目标样本数据,并向该计算节点返回所述目标样本数据。
[0018]可选地,所述读取模块还用于,若所述训练请求所需的样本数据的索引小于存储在该计算节点的本地磁盘中的样本数据的数量,则不从所述存储节点中读取所述远端样本数据。
[0019]可选地,所述装置还包括:缓存模块,用于针对该计算节点对所述目标模型的每个训练周期,在该训练周期的训练开始后随机生成该训练周期所对应的数据访本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向分布式集群的任务执行方法,其特征在于,包括:获取对目标模型进行训练的样本数据;根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,得到第一样本数量以及第二样本数量;将所述第一样本数量的样本数据存储在各计算节点的本地磁盘,将所述第二样本数量的样本数据存储在所述存储节点;针对每个计算节点,在接收到当前训练周期的训练请求后,将该计算节点的本地磁盘中指定数量的样本数据,与其他计算节点的本地磁盘中所述指定数量的样本数据进行交换,得到该计算节点中的更新后样本数据;访问所述存储节点,从所述存储节点中读取所述训练请求所需的样本数据,作为远端样本数据;根据所述更新后样本数据和所述远端样本数据,在该计算节点上执行所述当前训练周期针对所述目标模型的训练任务。2.如权利要求1所述的方法,其特征在于,根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,具体包括:根据样本数据的总数量、预设的带宽权重、预设的延迟权重,所述磁盘带宽和所述本地延迟,确定所述第一样本数量,以及,根据所述样本数据的总数量、所述带宽权重、所述延迟权重,所述网络带宽和所述网络延迟,确定所述第二样本数量。3.如权利要求2所述的方法,其特征在于,所述带宽权重大于所述延迟权重。4.如权利要求1所述的方法,其特征在于,根据计算集群中计算节点的本地磁盘所对应的磁盘带宽和本地延迟,以及计算节点与存储集群中存储节点之间网络带宽和网络延迟,对所述样本数据的数量进行划分,具体包括:根据所述磁盘带宽以及所述网络带宽,分别对所述磁盘带宽和所述网络带宽进行归一化处理,得到归一化磁盘带宽和归一化网络带宽,以及,根据所述本地延迟以及所述网络延迟,分别对所述本地延迟和所述网络延迟进行归一化处理,得到归一化本地延迟和归一化网络延迟;根据所述归一化磁盘带宽、所述归一化网络带宽、所述归一化本地延迟以及所述归一化网络延迟,对所述样本数据进行划分。5.如权利要求1所述的方法,其特征在于,在接收到训练请求之前,所述方法还包括:针对每个计算节点,定义该计算节点对应的数据加载接口;根据所述更新后样本数据和所述远端样本数据,在该计算节点上执行所述当前训练周期针对所述目标模型的训练任务,具体包括:通过所述数据加载接口,合并所述更新后样本数据和所述远端样本数据,得到目标样本数据,并向该计算节点返回所述目标样本数据。6.如权利要求1所述的方法,其特征在于,所述方法还包括:若所述训练请求所需的样本数据的索引小于存储在该计算节点的本地磁盘中的样本数据的数量,则不从所述存储节点中读取所述远端样本数据。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:针对该计算节点对所述目标模型的每个训练周期,随机生成该训练周期所对应的数据访问序列;根据所述数据访问序列,确定所述存储节点中各远端样本数据对应的访问次序,并按照所述访问次序将该训练周期对应的各远端样本数据存储在所述存储节点的缓存中;在接收到下一批次的训练请求后,按照所述各远端样本数据对应的访问次序,对存储在所述缓存中的各远端样本数据进行替换。8.一种面向分布式集群的任务执行装置...

【专利技术属性】
技术研发人员:侯瑞峥程稳李勇张莹刘懿胡陈枢陈光曾令仿
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1