基于深度强化学习的舰载机出动回收在线调度方法技术

技术编号：23315510 阅读：35 留言：0更新日期：2020-02-11 17:56

基于深度强化学习的舰载机出动回收在线调度方法涉及舰载机出动回收调度领域，解决航母甲板上的大规模舰载机出动回收在线调度问题。本发明专利技术通过将出动回收过程抽象为马尔可夫决策过程，将舰载机群当前状态作为输入，调度的行为作为输出，建立带权重的特征向量作为奖赏函数，构造出舰载机出动回收调度模型。为得到安全高效的调度策略，确立多目标调度策略，以舰载机舰面位移、任务调度时间、舰面冲突次数和设备利用率作为目标，利用深度Q学习网络训练调度模型。经过实验测试结果表明，该算法在遇到突发状况时能迅速处理并且对后续任务执行不产生影响，同时得到安全性和灵活性都较高的调度策略。

On-line scheduling method of carrier based aircraft recovery based on deep reinforcement learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的舰载机出动回收在线调度方法
本专利技术涉及舰载机出动回收调度领域，主要是涉及一种对于解决大规模舰载机在线调度问题，在考虑多种约束和突发状况时，应用深度强化学习算法优化的调度决策方法。
技术介绍
航空母舰体现了一个国家航海作战的能力，航母的作战能力则主要取决于航母上舰载机的出动能力，但由于航空母舰体量大、航母甲板环境复杂、设备操作困难和航母上无人设备逐渐增多等原因，导致舰载机出动和回收过程是在空间有限并充满危险的环境下进行，因此需要依靠弹射器、着舰跑道和操作人员等受限制的资源高速工作来完成。如何在恶劣作业环境下合理利用有限甲板空间和保障资源，安全且高效地出动舰载机执行作战任务，一直是世界各国航母研制的关键问题和航母作战指挥的关键技术。一个可靠的任务动作决策者需要为任务中的每一个舰载机规划可行的调度方案，这包括了从飞机出动前保障到着舰回收后停机的整个调度过程，实现在不确定的环境下能够安全并且高效地操作。舰载机调度问题的研究经历了从人工调度逐渐转变为计算机辅助调度，发展到现在的人工智能决策调度。由于人工调度决策在复杂约束情况下处理信息和创造细节计划能力与自动系统相比是受限制的，单纯依靠人工操作最终会限制舰载机调度的表现，因此需要利用智能优化算法辅助人工调度。目前国内外学者大多是采用传统的人工智能算法解决舰载机调度问题，如遗传算法、粒子群算法、混合差分算法等。这类算法将提前制定固定批次大小的任务放入算法模型中，通过计算得到对应该批次任务的指定调度方案。由于启发式算法计算量大，大多数国内外学者都只研究...

【技术保护点】
1.基于深度强化学习的舰载机出动回收在线调度方法，其特征在于，包括以下步骤：/n1.1环境建模，通过将问题转化为马尔可夫决策过程，实现多目标的舰载机在线调度；/n(1.1.1)建立航母甲板的平面直角坐标系，按照实际比例设置各机位和跑道的点位坐标，计算求得各点间转移位移；/n(1.1.2)设目标函数f如式(1)所示，设计为最小化舰载机甲板移动总距离T_Dis，最小化舰载机舰面冲突次数T_Conf，以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和，来最大化各保障机位和弹射机位的利用率T_Balan；/nf＝min(T_Dis)||min(T_Conf)||max(T_Balan) (1)/n

【技术特征摘要】
1.基于深度强化学习的舰载机出动回收在线调度方法，其特征在于，包括以下步骤：
1.1环境建模，通过将问题转化为马尔可夫决策过程，实现多目标的舰载机在线调度；
(1.1.1)建立航母甲板的平面直角坐标系，按照实际比例设置各机位和跑道的点位坐标，计算求得各点间转移位移；
(1.1.2)设目标函数f如式(1)所示，设计为最小化舰载机甲板移动总距离T_Dis，最小化舰载机舰面冲突次数T_Conf，以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和，来最大化各保障机位和弹射机位的利用率T_Balan；
f＝min(T_Dis)||min(T_Conf)||max(T_Balan)(1)

(1.1.3)以调度决策者为智能体，依照马尔可夫决策过程构建状态空间sspace如式(3)所示；
sspace＝{′E0′：op，...，′Em′：op，′A0′：[op，fuel，posl]，...，′An′：[op，fuel，posl]}(3)
设备组表示为[E0，E1，...，Em]，包括了保障区域保障设备组以及弹射器；舰载机群表示为[A0，A1，...，An]；设备及舰载机可用状态表示为op，用布尔值表示可用或不可用；舰载机所剩油量fuel离散的划分为0～3四个等级；当前位置表示为[pos0，pos1，...，posl]，包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库；
动作集定义为某一舰载机移动到某一位置的集合，动作空间aspace表示如式(4)所示；
aspace＝[[A0，P0]，[A0，P1]，...，[An-1，Pm-1]](4)
A＝[0，1，2，...，n-1]为舰载机集合，P＝[0，1，2，...，m-1]为位置集合，动作空间大小为m×n；
状态转移是指智能体从当前状态通过执行动作转移到下一状态的过程，在本调度问题中需要考虑几项约束，详见式(5-9)；

式(5)是油量约束，Ai表示舰载机，S表示保障机位集合，Fi表示油量等级，Pi表示舰载机当前位置，即舰载机油量等级为0时，若此舰载机不位于保障机位上，则该舰载机坠亡；式(6)是技术约束，T是按照执行顺序排列的任务集合，ST是任务开始时间，ET是任务结束时间，舰载机任务必须按照“保障—>弹射—>作战—>进入渐近线—>着舰—>保障/停机/维修”的顺序执行，并且必须在完成上一任务后才能进入下一任务；式(7)是互斥约束，Tij是舰载机i在停机位j的时间戳，Tkj是舰载机k在停机位j的时间戳，对于任意的两个舰载机都不能共用停机位，也就是各舰载机在同一停机位的时间戳不能重合；式(8)是空间约束，TL/TT3/TT4分别是着舰跑道和3号、4号弹射器被使用的时间戳集合，由于甲板空间狭小，着舰跑道和跑道附近的弹射器不能同时使用，设这两个弹射器标号为3号和4号；式(9)是任务约束，P是任务优先级集合，舰载机舰面会遇时按照当前舰载机任务优先级决定通过顺序；
目标函数由多个影响因素构成，奖赏函数用线性化方法表示；根据目标函数，将奖赏函数定义成一个权重向量的转置与当前状态s下的特征向量φ(s)的乘积；当前状态s的单步奖赏R(s)表示为式(10)；

其中权重向量中的各个数值根据对应的特征向量中包含的因素对于目标回报影响的程度进行设置；状态特征向量定义为以下7个特征值：1号特征值为濒临坠亡的舰载机...

【专利技术属性】
技术研发人员：于彤彤，董婷婷，肖创柏，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人