面向海上无人设备的深度强化学习任务调度方法及装置制造方法及图纸

技术编号:35516287 阅读:12 留言:0更新日期:2022-11-09 14:33
本申请提出了一种面向海上无人设备的深度强化学习任务调度方法及装置,涉及智能调度领域,该方法包括以下步骤:构建智能体学习模型,并初始化模型的网络参数;获取多个处理任务,根据拓扑排序将处理任务有序编排,得到任务执行队列;针对任务执行队列中的处理任务,获取处理任务对应的调度状态、调度动作和奖励,并生成四元组;根据四元组和奖励函数计算目标奖励值,并结合最小化损失公式和策略梯度公式更新智能体学习模型的目标网络参数,得到训练完成后的目标智能体学习模型;获取待处理任务,根据目标智能体学习模型对实时待处理任务进行实时任务优化调度。本发明专利技术可以实现大规模问题下的实时任务调度,提高资源利用率,降低能耗需求。低能耗需求。低能耗需求。

【技术实现步骤摘要】
面向海上无人设备的深度强化学习任务调度方法及装置


[0001]本申请涉及智能调度领域,尤其涉及一种面向海上无人设备的深度强化学习任务调度方法及装置。

技术介绍

[0002]现有的异构多核任务调度技术主要应用于大规模计算设备,理论而言这些设备的资源和用电不受限制,但对于性能受限的终端设备而言,目前缺少相关技术研究。该问题一般视为组合优化问题,是一种典型的NP

Hard问题,当应用场景变化时需要建立相应的数学模型。针对小规模问题可以精确求解,求解大规模问题时则设计各类优化/近似算法,此类方法的复杂度随问题规模的增加急剧上升,无法满足实时任务调度的需求。

技术实现思路

[0003]本专利技术的目的是针对海上无人设备调度,提出一种面向海上无人设备的深度强化学习任务调度方法及装置。
[0004]本申请第一方面提出了一种面向海上无人设备的深度强化学习任务调度方法,包括:
[0005]构建智能体学习模型,并初始化所述智能体学习模型的网络参数;
[0006]获取多个处理任务,并根据拓扑排序将所述多个处理任务进行有序编排,得到任务执行队列;
[0007]针对所述任务执行队列中的处理任务,获取所述处理任务对应的调度状态、调度动作和奖励,根据所述调度状态、调度动作和奖励生成四元组;
[0008]根据所述四元组和奖励函数计算目标奖励值,并根据所述目标奖励值、最小化损失公式和策略梯度公式更新所述智能体学习模型的目标网络参数,以得到训练完成后的目标智能体学习模型;/>[0009]获取待处理任务,根据所述目标智能体学习模型对所述实时待处理任务进行实时任务优化调度。
[0010]可选的,所述智能体学习模型包括表演者网络和评论家网络,所述智能体学习模型设计为由预测网络和目标网络构成的双网格结构。
[0011]可选的,所述多个处理任务包括获取原始海上数据任务、海上目标检测任务、海下传感数据处理任务、海上物体识别任务、方位信息处理任务、感知信息计算任务、导航任务处理任务、保存处理结果任务中的任意一种或者多种。
[0012]可选的,在获取所述处理任务对应的调度状态之前,还包括:
[0013]定义调度状态空间,其中,所述调度状态定义如下:
[0014]s
t
=[n,EST(v
i
,p1),

,EST(v
i
,p
M
),w
i,1
,

w
i,M
],1≤1≤N;
[0015]其中s
t
是时间t时的调度状态,n表示当前任务队列中未调度的任务数量,EST(v
i
,p
j
)是当前待调度任务v
i
在处理器p
j
上的最早开始时间,w
i,j
表示当前任务v
i
在处理器p
j
上的
处理时间,N、M分别为任务数量和处理器数量。
[0016]可选的,在获取所述处理任务对应的调度动作之前,还包括:
[0017]定义调度动作空间,其中,所述调度动作定义如下:
[0018]a
t
={p
j
|p1,

,p
M
}
[0019]其中a
t
是t时刻的调度动作,p
j
表示智能体为任务队列中的第一个任务分配的处理器。
[0020]可选的,在根据所述四元组和奖励函数计算目标奖励值之前,还包括:
[0021]构建所述奖励函数,其中,所述奖励函数公式化表示如下:
[0022]r(s
t
,a
t
)=c0/TC
t
+c1/EC
t
[0023]其中,TC
t
和EC
t
分别表示系统处理当前已经调度的任务所需的时间开销和能耗开销。c0、c1为控制因子且c0+c1=1,用于控制时间和能耗对优化目标的影响程度。
[0024]可选的,所述根据所述目标奖励值、最小化损失公式和策略梯度公式更新所述智能体学习模型的目标网络参数,包括:
[0025]根据目标奖励值和最小化损失公式更新预测评论家网络,所述最小化损失公式为:
[0026]y
i
=r
i
+γQ

(s
i+1


(s
i+1

μ

)|θ
Q

),1≤i≤BN,
[0027]其中,r
i
为当前时刻i的奖励,γ为衰减因子,s
i+1
为下一时刻状态;
[0028]根据目标奖励值和策略梯度公式更新预测表演家网络,所述策略梯度公式为:
[0029][0030]其中,BN为批量梯度下降的样本数。
[0031]所述网络参数更新方式为:
[0032][0033]其中,τ为软更新系数。
[0034]本申请第二方面提出了一种面向海上无人设备的深度强化学习任务调度装置,包括:
[0035]初始化模块,用于构建智能体学习模型,并初始化所述智能体学习模型的网络参数;
[0036]任务编排模块,用于获取多个处理任务,并根据拓扑排序将所述多个处理任务进行有序编排,得到任务执行队列;
[0037]第一训练模块,针对所述任务执行队列中的处理任务,获取所述处理任务对应的调度状态、调度动作和奖励,根据所述调度状态、调度动作和奖励生成四元组;
[0038]第二训练模块,根据所述四元组和奖励函数计算目标奖励值,并根据所述目标奖励值、最小化损失公式和策略梯度公式更新所述智能体学习模型的网络参数,以得到训练完成后的目标智能体学习模型;
[0039]调度模块,用于获取待处理任务,根据所述目标智能体学习模型对所述实时待处理任务进行实时任务优化调度。
[0040]本申请第三方面,提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面中任一所述的方法。
[0041]本申请第四方面,提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一所述的方法。
[0042]本公开的实施例提供的技术方案至少带来以下有益效果:
[0043]针对海上无人设备的应用场景提出的调度方案,考虑边缘设备端资源利用率与能耗需求,改进了现有技术自适应差、学习能力不足、应用场景有限等缺点,同时具有稳定可靠的求解性能,并且将训练后的智能体直接用于任务的调度,满足实时性要求。
[0044]本申请附加的方面本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向海上无人设备的深度强化学习任务调度方法,其特征在于,包括:构建智能体学习模型,并初始化所述智能体学习模型的网络参数;获取多个处理任务,并根据拓扑排序将所述多个处理任务进行有序编排,得到任务执行队列;针对所述任务执行队列中的处理任务,获取所述处理任务对应的调度状态、调度动作和奖励,根据所述调度状态、调度动作和奖励生成四元组;根据所述四元组和奖励函数计算目标奖励值,并根据所述目标奖励值、最小化损失公式和策略梯度公式更新所述智能体学习模型的目标网络参数,以得到训练完成后的目标智能体学习模型;获取待处理任务,根据所述目标智能体学习模型对所述实时待处理任务进行实时任务优化调度。2.根据权利要求1所述的方法,其特征在于,所述智能体学习模型包括表演者网络和评论家网络,所述智能体学习模型设计为由预测网络和目标网络构成的双网格结构。3.根据权利要求1所述的方法,其特征在于,所述多个处理任务包括获取原始海上数据任务、海上目标检测任务、海下传感数据处理任务、海上物体识别任务、方位信息处理任务、感知信息计算任务、导航任务处理任务、保存处理结果任务中的任意一种或者多种。4.根据权利要求1所述的方法,其特征在于,在获取所述处理任务对应的调度状态之前,还包括:定义调度状态空间,其中,所述调度状态定义如下:s
t
=[n,EST(v
i
,p1),

,EST(v
i
,p
M
),w
i,1
,

w
i,M
],1≤1≤N;其中s
t
是时间t时的调度状态,n表示当前任务队列中未调度的任务数量,EST(v
i
,p
j
)是当前待调度任务v
i
在处理器p
j
上的最早开始时间,w
i,j
表示当前任务v
i
在处理器p
j
上的处理时间,N、M分别为任务数量和处理器数量。5.根据权利要求1所述的方法,其特征在于,在获取所述处理任务对应的调度动作之前,还包括:定义调度动作空间,其中,所述调度动作定义如下:a
t
={p
j
|p1,

,p
M
}其中a
t
是t时刻的调度动作,p
j
表示智能体为任务队列中的第一个任务分配的处理器。6.根据权利要求1所述的方法,其特征在于,在根据所述...

【专利技术属性】
技术研发人员:陈波魏小峰姜强强张福刚杨建朋
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1