当前位置: 首页 > 专利查询>北京大学专利>正文

面向深度学习的大规模负载混部调度方法、装置及介质制造方法及图纸

技术编号:37545337 阅读:33 留言:0更新日期:2023-05-12 16:17
本申请提供一种面向深度学习的大规模负载混部调度方法、装置及介质,涉及集群调度技术领域,包括:获取任务队列;获取第一特征、第二特征,并基于所述第一特征获取共享配置;将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。本申请通过引入在线负载对应的第一特征获取共享配置,保证了生成的第一时间节点下的最优调度方案可以不影响在线负载的延迟限制;同时生成的调度二部图中将最大权值的调度方案作为最优调度方案,保证了离线负载的执行效率。保证了离线负载的执行效率。保证了离线负载的执行效率。

【技术实现步骤摘要】
面向深度学习的大规模负载混部调度方法、装置及介质


[0001]本申请实施例涉及集群调度
,具体而言,涉及一种面向深度学习的大规模负载混部调度方法、装置及介质。

技术介绍

[0002]深度学习已被广泛应用于智能应用和服务中,如智能推荐、自动驾驶、图像识别和机器翻译等。其中,深度学习负载包括有严格服务延迟限制的在线负载以及没有服务延迟限制的离线负载。企业通常为深度学习负载搭建大规模图形处理器集群,并为在线负载提供专用集群,然而在线负载的集群利用率较低,导致了集群资源的浪费。
[0003]现有技术中,通过调度系统生成针对于离线负载和在线负载共享集群的调度方案来提升集群资源的利用率。然而,现有技术可能减慢在线负载执行效率,无法提高资源利用率,或难以进行大规模落地部署。设计面向大规模共享集群的调度系统的挑战包括:一方面,调度系统的首要目标是保证在线负载的性能,而共享集群的方式难以保证在线负载的执行效率;另一方面,不同的调度方案会对共享的负载的执行效率产生较大影响,配置合理的调度方案较为复杂耗时;此外,对于调度大规模集群的调度系统,共享组合的数量为负载数量的指数级别,给高效调度带来极大挑战。因此,如何在保证在线负载性能的前提下,提升离线负载的执行效率,成为本领域技术人员当前亟待解决的技术问题。

技术实现思路

[0004]本申请实施例在于提供一种面向深度学习的大规模负载混部调度方法、装置及介质,旨在解决如何在保证在线负载性能的前提下,提升离线负载的执行效率的问题。
[0005]本申请实施例第一方面提供一种面向深度学习的大规模负载混部调度方法,包括:获取任务队列,所述任务队列为第一时间节点的负载队列,所述任务队列包括至少一个在线负载与至少一个离线负载;获取第一特征、第二特征,并基于所述第一特征获取共享配置,所述第一特征包括所述任务队列中每个在线负载的负载信息,所述第二特征包括所述任务队列中每个离线负载的负载信息;将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。
[0006]在一种可选的实施方式中,所述第一特征,按照如下方式获取:获取每个在线负载在间隔时间段的负载信息,所述间隔时间段为所述第一时间节点与上一时间节点之间的时间段;将所述每个在线负载在间隔时间段的负载信息,作为所述任务队列中每个在线负
载的负载信息;将所述任务队列中所有在线负载的负载信息组合为所述第一特征。
[0007]在一种可选的实施方式中,所述第二特征按照如下方式获取:获取第二负载信息,所述第二负载信息为已获取的负载信息;获取所述任务队列中的目标离线负载,所述目标离线负载为未获取负载信息的离线负载;对所述目标离线负载进行预设次数的预执行操作,获取预执行后的目标离线负载的负载信息,作为第一负载信息;将所述第一负载信息与所述第二负载信息组合为所述第二特征。
[0008]在一种可选的实施方式中,基于所述第一特征获取共享配置,包括:基于所述任务队列,获取多个共享负载对,所述共享负载对包括所述任务队列中任意一个在线负载以及任务队列中任意一个离线负载;基于所述第一特征中在线负载的负载信息,获取每个共享负载对中在线负载的在线计算单元比例;基于所述在线计算单元比例,计算第一剩余比例,将所述第一剩余比例作为所述每个共享负载对的共享子配置;将所有共享负载对的共享子配置组合为所述共享配置。
[0009]在一种可选的实施方式中,在获取每个共享负载对中在线负载的在线计算单元比例之后,所述方法还包括:以离散标准比例更新所述在线计算单元比例,所述离散标准比例为大于或等于所述在线计算单元比例的最小预设离散值;基于所述离散标准比例,计算第二剩余比例,将所述第二剩余比例作为所述每个共享负载对的共享子配置;将所有共享负载对的共享子配置组合为所述共享配置。
[0010]在一种可选的实施方式中,所述速度预测模型的训练过程如下:获取包含多个训练共享负载对的训练数据集,每个训练共享负载对包括任意一个在线负载与任意一个常用离线负载;在每一次训练时,将所述训练共享负载对输入初始速度预测模型,获取吞吐量预测值;基于所述吞吐量预测值与吞吐量真值的损失,对所述初始速度预测模型的参数进行优化;基于所述训练数据集,对所述初始速度预测模型进行训练,得到所述速度预测模型。
[0011]在一种可选的实施方式中,所述共享吞吐量数据包括对应于每个离线负载的共享归一化吞吐量,基于所述共享吞吐量数据以及所述任务队列,获取调度二部图,包括:以所述任务队列中的在线负载作为第一端点,所述任务队列中的离线负载作为第二端点,构建初始二部图;将所述初始二部图中的每个第一端点与每个第二端点相连,构建多条调度边,每条调度边对应一个共享负载对;
将所述每条调度边对应的共享负载对中离线负载的共享归一化吞吐量,作为所述每条调度边的边权;基于所述调度边和所述每条调度边的边权,构建所述调度二部图。
[0012]在一种可选的实施方式中,基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案,包括:基于所述调度二部图,获取至少一个候选调度方案,每个候选调度方案的所述第一端点以及所述第二端点均不重合;基于库恩

曼克尔斯算法计算所述调度二部图的最大权值,所述最大权值为所述候选调度方案的最大边权和;将对应所述最大权值的候选调度方案,作为所述第一时间节点的最优调度方案。
[0013]本申请实施例第二方面提供一种面向深度学习的大规模负载混部调度装置,包括:队列获取模块,用于获取任务队列,所述任务队列为第一时间节点的负载队列,所述任务队列包括至少一个在线负载与至少一个离线负载;特征获取模块,用于获取第一特征、第二特征,并基于所述第一特征获取共享配置,所述第一特征包括所述任务队列中每个在线负载的负载信息,所述第二特征包括所述任务队列中每个离线负载的负载信息;速度预测模块,用于将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;二部图获取模块,用于基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;调度生成模块,用于基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。
[0014]在一种可选的实施方式中,所述特征获取模块,包括:间隔负载信息获取子模块,用于获取每个在线负载在间隔时间段的负载信息,所述间隔时间段为所述第一时间节点与上一时间节点之间的时间段;在线负载信息获取子模块,用于将所述每个在线负载在间隔时间段的负载信息,作为所述任务队列中每个在线负载的负载信息;第一特征获取子模块,用于将所述任务队列中所有在线负载的负载信息组合为所述第一特征。
[0015]在一种可选的实施方式中,所述特征获取模块还包括:第二负载信息获取子模块,用于获取第二负载信息,所述第二负载信息为已获取的负载信息;目标离线负载获取子模块,用于获取所述任务队列中的目标离线负载,所述目标离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向深度学习的大规模负载混部调度方法,其特征在于,包括:获取任务队列,所述任务队列为第一时间节点的负载队列,所述任务队列包括至少一个在线负载与至少一个离线负载;获取第一特征、第二特征,并基于所述第一特征获取共享配置,所述第一特征包括所述任务队列中每个在线负载的负载信息,所述第二特征包括所述任务队列中每个离线负载的负载信息;将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。2.根据权利要求1所述的面向深度学习的大规模负载混部调度方法,其特征在于,所述第一特征,按照如下方式获取:获取每个在线负载在间隔时间段的负载信息,所述间隔时间段为所述第一时间节点与上一时间节点之间的时间段;将所述每个在线负载在间隔时间段的负载信息,作为所述任务队列中每个在线负载的负载信息;将所述任务队列中所有在线负载的负载信息组合为所述第一特征。3.根据权利要求1所述的面向深度学习的大规模负载混部调度方法,其特征在于,所述第二特征按照如下方式获取:获取第二负载信息,所述第二负载信息为已获取的负载信息;获取所述任务队列中的目标离线负载,所述目标离线负载为未获取负载信息的离线负载;对所述目标离线负载进行预设次数的预执行操作,获取预执行后的目标离线负载的负载信息,作为第一负载信息;将所述第一负载信息与所述第二负载信息组合为所述第二特征。4.根据权利要求1所述的面向深度学习的大规模负载混部调度方法,其特征在于,基于所述第一特征获取共享配置,包括:基于所述任务队列,获取多个共享负载对,所述共享负载对包括所述任务队列中任意一个在线负载以及任务队列中任意一个离线负载;基于所述第一特征中在线负载的负载信息,获取每个共享负载对中在线负载的在线计算单元比例;基于所述在线计算单元比例,计算第一剩余比例,将所述第一剩余比例作为所述每个共享负载对的共享子配置;将所有共享负载对的共享子配置组合为所述共享配置。5.根据权利要求4所述的面向深度学习的大规模负载混部调度方法,其特征在于,在获取每个共享负载对中在线负载的在线计算单元比例之后,所述方法还包括:以离散标准比例更新所述在线计算单元比例,所述离散标准比例为大于或等于所述在线计算单元比例的最小预设离散值;基于所述离散标准比例,计算第二剩余比例,将所述第二剩余比例作为所述每个共享
负载对的共享子配置;将所有共享负载对的共享子配置组合为所述共享配置。6.根据权利要求1所述的面向深度学习的大规模负载混部调度方法,其特征在于,所述速度预测模型的训...

【专利技术属性】
技术研发人员:刘譞哲金鑫赵怡浩马郓
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1