本发明专利技术涉及物联网资源调度技术领域,具体是基于强化学习的物联网采集平台计算资源调度方法,本发明专利技术通过构建物联网采集平台,确定状态空间、动作空间、奖励函数和目标方程;引入Double DQN算法,构建强化学习网络;训练强化学习网络,得到最优的计算资源智能调度方案。本发明专利技术利用Double DQN算法来改进建筑物联网采集平台的任务调度方法,极大提高了任务调度的处理效率、降低了处理时延,有效降低了建筑物联网采集平台的运行成本。
【技术实现步骤摘要】
本专利技术涉及物联网资源调度,具体是基于强化学习的物联网采集平台计算资源调度方法。
技术介绍
1、随着工业物联网现场节点数量迅速增长、采集数据频率不断提高、采集属性不断扩充,接入物联网采集平台的数据量迅速增长,给平台的处理速度、资源利用效率等性能提出了更苛刻的要求。物联网采集平台包含数量众多的计算资源,包括gpu、cpu、内存等,如何对资源进行调度直接影响着平台的性能。
2、为了解决上述技术问题,专利cn107819866a公开了一种物联网数据采集控制平台,结构中包括依次串行连接的现场数据采集单元、网络传输单元、数据处理中间件和数据服务中心;所述现场数据采集单元用于采集现场各类数据,并通过网络传输单元上传到数据处理中间件进行处理,数据服务中心在数据处理中间件处理的基础上实现业务管控。上述现有技术客户提供灵活的综合业务系统整合的一体化物联网信息采集、管控系统。尽管上述现有技术能够提高信息采集的水平,但是在对控制平台中的gpu、cpu、内存等计算资源的调度过程中,通常是以最大化信息采集水平为目标,没有采用合适的计算资源调度方案,导致在提高控制平台资源过度消耗的同时,降低了计算的效率,因此亟待解决。
技术实现思路
1、为了避免和克服现有技术中存在的技术问题,本专利技术提供了基于强化学习的物联网采集平台计算资源调度方法。本专利技术能够为计算任务分配合理的计算资源调度方案,有效的提高计算效率,同时降低计算资源的消耗。
2、为实现上述目的,本专利技术提供如下技术方案:</p>3、基于强化学习的物联网采集平台计算资源调度方法,包括以下步骤:
4、s1、构建由多个计算资源组成的物联网采集平台,计算资源包括cpu资源和gpu资源;将物联网采集平台作为强化学习模型的训练环境,以确定训练环境的状态空间;
5、s2、将调度算法作为强化学习模型的智能体,通过利用物联网采集平台中的cpu资源和gpu资源初步估计各个任务的执行时间和各个任务的最大可接受执行延迟时间,并将cpu资源和gpu资源在时间计算过程中的调度范围作为智能体的动作空间。
6、s3、以最小化各个任务的执行时间和最小化各个任务的最大可接受执行延迟时间为目标,确定强化学习模型的奖励函数,并获取该目标对应的cpu资源和gpu资源的调度方案;
7、s4、引入double dqn网络,并将double dqn网络作为智能体,同时对double dqn网络进行训练,以得到最优强化学习模型;
8、s5、将各个任务输入到最优强化学习模型,通过最小化奖励函数来得到各个任务执行时间和最大可接受执行延迟时间最小时对应的cpu资源和gpu资源的调度方案。
9、作为本专利技术再进一步的方案:物联网采集平台为由基于cpu资源和gpu资源的物联网数据接入与解析服务器、基于cpu资源和gpu资源的数据转发与大数据流处理服务器,以及基于cpu资源和gpu资源的数据存储与可视化服务器组成的计算集群;
10、计算集群使用计算任务的开始时刻、计算任务的结束时刻,以及在执行计算任务过程中数据接入与解析服务器的资源状态作为强化学习模型的状态空间s,s={tstart,tend,resnode};其中,tstart为一个m×n维的矩阵,tstart表示每一轮调度中,m个计算任务的n个开始时刻组合而成的m行n列的矩阵;tend为一个m×n维的矩阵,tend表示每一轮调度中,m个计算任务的n个结束时刻组合而成的m行n列的矩阵;resnode为一个m×k维的矩阵,resnode表示在每一轮调度中,m个计算任务在k个边缘节点上运行的分布状态。
11、作为本专利技术再进一步的方案:调度算法输出的动作空间qm×k为一个m×k维的矩阵,qm×k中的各个元素分别表示将对应计算任务调度至k个边缘节点的概率值q;动作空间qm×k中第m行第k列的元素qmk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比;动作空间qm×k表示如下:
12、
13、其中,qπ(s,a)表示动作空间qm×k的矩阵名,s表示空间状态,a表示动作;q11为qπ(s,a)中第1行第1列的元素;q1k为qπ(s,a)中第1行第k列的元素;qm1为qπ(s,a)中第m行第1列的元素;qmk为qπ(s,a)中第m行第k列的元素;
14、智能体根据下式进行动作选择:
15、
16、其中,(m,k)表示将计算任务m调度至边缘计算节点k的动作;argmax表示取最大值操作;ai表示智能体在第i轮调度的动作,s表示空间状态。
17、作为本专利技术再进一步的方案:调度算法针对不同计算任务输出动作决策,之后根据动作决策将计算任务分别提交至不同的计算节点,调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算;第i轮调度的奖励定义为:
18、
19、其中,rewardi表示第i轮调度的奖励;rw表示奖励常数,用于调节当前所获得奖励的值;cost(si,m)表示第i轮调度的价值函数值,si表示第i个空间状态;mincost最小价值函数值;λ1和λ2均为可变的奖励控制函数;δ表示价值函数阈值;otherwise表示范围;
20、cost(si,m)具体计算如下:
21、cost(si,m)=λ3(ω1jct1+…+ωkjctk)+λ4var(numi)
22、其中,numi表示第i轮调度时在k个边缘节点上的任务数量矩阵;var(numi)表示对numi求方差操作;ω1表示第1个计算节点上的任务平均完成时间的对应权重;ωk表示第k个计算节点上的任务平均完成时间的对应权重;λ3和λ4均为可变的奖励控制函数;jct1表示第1个计算任务的任务执行时间;jctk表示第k个计算任务的任务执行时间。
23、作为本专利技术再进一步的方案:步骤s4的具体步骤如下:
24、s41、训练回合初始化为0;
25、s42、用随机参数ω初始化double dqn网络,并得到训练网络
26、s43、使用参数ωtarget来初始化目标网络
27、s44、初始化经验回放器;
28、s45、迭代进行:获取状态空间s={tstart,tend,resnode},根据当前训练网络以贪婪策略ε选取动作,执行动作,获得汇报,更新状态空间s;
29、s46、将经验(si,ai,si+1)存入经验回放器;若经验回放器中经验数据量达到设定数量,从经验回放器中随机选取n组数据{(si,ai,si+1)}i-1,...,n,用和计算损失函数,根据损失函数更新的参数;
30、s47、迭代进行设定代数c步时将的参数同步到以得到最优目标网络,该最优目标网络即为对应的最优强化学习模型。
31、与现有技术相比,本专利技术的有益效果是:
32、本专利技术利用double dqn算法来改本文档来自技高网
...
【技术保护点】
1.基于强化学习的物联网采集平台计算资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,物联网采集平台为由基于CPU资源和GPU资源的物联网数据接入与解析服务器、基于CPU资源和GPU资源的数据转发与大数据流处理服务器,以及基于CPU资源和GPU资源的数据存储与可视化服务器组成的计算集群;
3.根据权利要求2所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,调度算法输出的动作空间QM×K为一个M×K维的矩阵,QM×K中的各个元素分别表示将对应计算任务调度至K个边缘节点的概率值Q;动作空间QM×K中第m行第k列的元素Qmk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比;动作空间QM×K表示如下:
4.根据权利要求3所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,调度算法针对不同计算任务输出动作决策,之后根据动作决策将计算任务分别提交至不同的计算节点,调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算;第i轮调度的奖励定义为:
5.根据权利要求4所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,步骤S4的具体步骤如下:
...
【技术特征摘要】
1.基于强化学习的物联网采集平台计算资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,物联网采集平台为由基于cpu资源和gpu资源的物联网数据接入与解析服务器、基于cpu资源和gpu资源的数据转发与大数据流处理服务器,以及基于cpu资源和gpu资源的数据存储与可视化服务器组成的计算集群;
3.根据权利要求2所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,调度算法输出的动作空间qm×k为一个m×k维的矩阵,qm×k中的各个元素分别表示将对应计算任务调度...
【专利技术属性】
技术研发人员:赵邦国,朱宏博,甄黎明,刘道学,付香才,程维国,耿天宝,
申请(专利权)人:中铁四局集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。