面向深度学习的大规模负载混部调度方法、装置及介质制造方法及图纸

技术编号：37545337 阅读：33 留言：0更新日期：2023-05-12 16:17

本申请提供一种面向深度学习的大规模负载混部调度方法、装置及介质，涉及集群调度技术领域，包括：获取任务队列；获取第一特征、第二特征，并基于所述第一特征获取共享配置；将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型，获取共享吞吐量数据；基于所述共享吞吐量数据以及所述任务队列，获取调度二部图；基于所述调度二部图的最大权值，确定所述第一时间节点的最优调度方案。本申请通过引入在线负载对应的第一特征获取共享配置，保证了生成的第一时间节点下的最优调度方案可以不影响在线负载的延迟限制；同时生成的调度二部图中将最大权值的调度方案作为最优调度方案，保证了离线负载的执行效率。保证了离线负载的执行效率。保证了离线负载的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
面向深度学习的大规模负载混部调度方法、装置及介质

[0001]本申请实施例涉及集群调度
，具体而言，涉及一种面向深度学习的大规模负载混部调度方法、装置及介质。

技术介绍

[0002]深度学习已被广泛应用于智能应用和服务中，如智能推荐、自动驾驶、图像识别和机器翻译等。其中，深度学习负载包括有严格服务延迟限制的在线负载以及没有服务延迟限制的离线负载。企业通常为深度学习负载搭建大规模图形处理器集群，并为在线负载提供专用集群，然而在线负载的集群利用率较低，导致了集群资源的浪费。
[0003]现有技术中，通过调度系统生成针对于离线负载和在线负载共享集群的调度方案来提升集群资源的利用率。然而，现有技术可能减慢在线负载执行效率，无法提高资源利用率，或难以进行大规模落地部署。设计面向大规模共享集群的调度系统的挑战包括：一方面，调度系统的首要目标是保证在线负载的性能，而共享集群的方式难以保证在线负载的执行效率；另一方面，不同的调度方案会对共享的负载的执行效率产生较大影响，配置合理的调度方案较为复杂耗时；此外，对于调度大规模集群的调度系统，共享组合的数量为负载数量的指数级别，给高效调度带来极大挑战。因此，如何在保证在线负载性能的前提下，提升离线负载的执行效率，成为本领域技术人员当前亟待解决的技术问题。

技术实现思路

[0004]本申请实施例在于提供一种面向深度学习的大规模负载混部调度方法、装置及介质，旨在解决如何在保证在线负载性能的前提下，提升离线负载的执行效率的问题。
[0005]本申请实施例第一...

【技术保护点】

【技术特征摘要】
1.一种面向深度学习的大规模负载混部调度方法，其特征在于，包括：获取任务队列，所述任务队列为第一时间节点的负载队列，所述任务队列包括至少一个在线负载与至少一个离线负载；获取第一特征、第二特征，并基于所述第一特征获取共享配置，所述第一特征包括所述任务队列中每个在线负载的负载信息，所述第二特征包括所述任务队列中每个离线负载的负载信息；将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型，获取共享吞吐量数据；基于所述共享吞吐量数据以及所述任务队列，获取调度二部图；基于所述调度二部图的最大权值，确定所述第一时间节点的最优调度方案。2.根据权利要求1所述的面向深度学习的大规模负载混部调度方法，其特征在于，所述第一特征，按照如下方式获取：获取每个在线负载在间隔时间段的负载信息，所述间隔时间段为所述第一时间节点与上一时间节点之间的时间段；将所述每个在线负载在间隔时间段的负载信息，作为所述任务队列中每个在线负载的负载信息；将所述任务队列中所有在线负载的负载信息组合为所述第一特征。3.根据权利要求1所述的面向深度学习的大规模负载混部调度方法，其特征在于，所述第二特征按照如下方式获取：获取第二负载信息，所述第二负载信息为已获取的负载信息；获取所述任务队列中的目标离线负载，所述目标离线负载为未获取负载信息的离线负载；对所述目标离线负载进行预设次数的预执行操作，获取预执行后的目标离线负载的负载信息，作为第一负载信息；将所述第一负载信息与所述第二负载信息组合为所述第二特征。4.根据权利要求1所述的面向深度学习的大规模负载混部调度方法，其特征在于，基于所述第一特征获取共享配置，包括：基于所述任务队列，获取多个共享负载对，所述共享负载对包括所述任务队列中任意一个在线负载以及任务队列中任意一个离线负载；基于所述第一特征中在线负载的负载信息，获取每个共享负载对中在线负载的在线计算单元比例；基于所述在线计算单元比例，计算第一剩余比例，将所述第一剩余比例作为所述每个共享负载对的共享子配置；将所有共享负载对的共享子配置组合为所述共享配置。5.根据权利要求4所述的面向深度学习的大规模负载混部调度方法，其特征在于，在获取每个共享负载对中在线负载的在线计算单元比例之后，所述方法还包括：以离散标准比例更新所述在线计算单元比例，所述离散标准比例为大于或等于所述在线计算单元比例的最小预设离散值；基于所述离散标准比例，计算第二剩余比例，将所述第二剩余比例作为所述每个共享
负载对的共享子配置；将所有共享负载对的共享子配置组合为所述共享配置。6.根据权利要求1所述的面向深度学习的大规模负载混部调度方法，其特征在于，所述速度预测模型的训...

【专利技术属性】
技术研发人员：刘譞哲，金鑫，赵怡浩，马郓，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人