一种基于强化学习的异构边云AI系统任务调度框架技术方案

技术编号:37369934 阅读:32 留言:0更新日期:2023-04-27 07:15
本发明专利技术针对异构边云AI推理系统中高吞吐和低延迟的需求,提出一种基于强化学习的异构边云AI系统任务调度框架,能够高效地处理多种深度学习任务。所述调度框架由边缘调度器、异构的边缘集群和云服务器组成。该框架使用在运行时测得的后验结果作为学习样本,在每次调度中根据每个任务的性能降级自动学习设备间的差异,实现异构资源感知,进而推断出当前状态下的最优调度决策。此外,本发明专利技术还引入了云端任务卸载机制,解决了边缘端小模型推理精度不足的问题。足的问题。足的问题。

【技术实现步骤摘要】
一种基于强化学习的异构边云AI系统任务调度框架


[0001]本专利技术属于边缘计算
,特别是涉及一种基于强化学习的异构边云AI系统任务调度框架。

技术介绍

[0002]对于一个部署了各种类型推理服务的异构边云系统,如果没有设计合适的任务调度策略,任务的处理延迟可能会过高。为了将某任务调度到合适的边缘设备上,需要预测各设备在当前状态下对该任务的处理能力以及资源满足情况,从而选取最优的设备来进行处理。
[0003]强化学习(RL)方法可以达到上述效果。在设计好价值网络和策略网络,以及每一步的状态、动作和奖励函数后,可以通过实际运行时获得的经验,自动学习优化目标。本专利技术针对异构边缘集群中的混合任务提出了一种基于RL的调度算法,该算法使用在运行时测得的后验结果作为学习样本,在每次调度中根据每个任务的性能降级自动学习设备间的差异,实现异构资源感知,进而推断出当前状态下的最优调度决策。
[0004]此外,本专利技术还引入了云端任务卸载机制,解决边缘端小模型推理精度不足的问题。

技术实现思路

[0005]本专利技术目本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的异构边云AI系统任务调度框架,其特征在于,所述调度框架由边缘调度器、异构的边缘集群和云服务器组成;边缘调度器:在每个边缘集群中都有一个节点作为边缘调度器,负责接收和调度请求;边缘调度器维护一个请求队列来缓存来自终端设备的请求,所述请求由不同类型的推理任务组成,并将请求信息逐步输入到强化学习算法中,强化学习算法根据当前请求和设备状态向调度模块输出调度策略,接着由调度模块调用API将调度策略回应给相应的终端设备;边缘集群:集群中的每个边缘设备都预加载了各种类型的轻量级模型,终端设备会根据调度策略将数据发送给相应的边缘设备,使用该边缘设备上相应的轻量级模型进行推理,该边缘设备会将状态和奖励信息反馈给边缘调度器中的强化学习模型供后续训练;云服务器:云服务器预加载了相应的高精度大模型,如果边缘设备的推理置信度不满足阈值要求,则将任务卸载到云端的大模型进行二次推理。2.根据权利要求1所述的调度框架,其特征在于,所述调度框架在功能上包括任务调度和任务卸载两个部分;所述任务卸载具体为:当边缘集群对某个任务的推理置信度低于设定的阈值时,终端设备将任务发送到云端的大模型进行二次推理。3.根据权利要求2所述的调度框架,其特征在于,所述任务调度具体为:设在集群中有一组异构的边缘设备A={a1,a2,a3,

,a
A
},每个设备都预加载了一组不同类型的深度学习模型W={w1,w2,w3,

,w
W
}来提供推理服务;在某一时刻t,任务队列中有上述模型的推理任务已知时刻t各设备上各模型正在处理的任务数为:定义每个任务的性能降级为:其中是t时刻对模型w
j
的任务在设备a
i
上的完成时间,包括等待调度的时间、数据传输时间和节点上的排队和推理时间;若任务处理失败或超时,其性能下降会被设置为0,这样可以尽可能避免调度算法将任务调度到过载或死节点上,具有过滤作用;根据状态s
t
下任务在每个边缘设备上的性能降级做出调度决策,将任务分配给最优的设备a
i
,以最小化当前状态下该任务的完成时间其中是可学习的;对于整个任务到达过程,其目标是最小化所有任务的平均延迟:4.根据权利要求3所述的调度框架,其特征在于,边缘任务的延迟由等待调度时间、数
据传输时间及节点上排队和推理时间组成,分别受不同因素的影响;时间1即等待调度的时间取决于调度器的调度效率,也会影响整个边缘集群的吞吐量,当吞吐量接近任务到达速度时,这个时间可以忽略不计;时间2即数据传输的时间取决于数据大小和网络状况,可以通过数据压缩或定义特定的传输协议来减少时间开销;时间3即节点上排队和推理的时间取决于调度策略,需要设计一个高效的调度算法来减少该时间。5.根据权利要求4所述的调度框架,其特征在于,所述时间1通过动作扩展的方法来减少;所述动作扩展方法具体为:该方法引入了参数choice_num和action_ex_factor;action_ex_factor用于控制强化学习输出动作的扩展倍数,扩展的动作维度是实际节点数的数倍,所以抽样动作后,需要mod实际节点数,得到实际调度的目标节点;参数choice_num用于实现一次强化学习推理就调度多个任务,在强化学习模型输出动作概率矩阵后,一次采样choice_num个动作,如果当前等待队列中的任务数n小于choice_num,则只选择前n个动作,规定每次抽样choice_num个动作时,不能重复抽取同一个动作。6.根据权利要求4所述的调度框架,其特征在于,所述时间2采用数据压缩的方法来减少,将所有数据压缩成相同的大小,显著减少数据传输时间。7.根据权利要求4所述的调度框架,其特征在于,所述时间3采用基于A2C强化学习框架的调度算法来减少,所述基于A2C强化学习框架的调度...

【专利技术属性】
技术研发人员:林昌垚李欢张子阳刘劼
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1