基于深度强化学习的舰载机出动回收在线调度方法技术

技术编号:23315510 阅读:35 留言:0更新日期:2020-02-11 17:56
基于深度强化学习的舰载机出动回收在线调度方法涉及舰载机出动回收调度领域,解决航母甲板上的大规模舰载机出动回收在线调度问题。本发明专利技术通过将出动回收过程抽象为马尔可夫决策过程,将舰载机群当前状态作为输入,调度的行为作为输出,建立带权重的特征向量作为奖赏函数,构造出舰载机出动回收调度模型。为得到安全高效的调度策略,确立多目标调度策略,以舰载机舰面位移、任务调度时间、舰面冲突次数和设备利用率作为目标,利用深度Q学习网络训练调度模型。经过实验测试结果表明,该算法在遇到突发状况时能迅速处理并且对后续任务执行不产生影响,同时得到安全性和灵活性都较高的调度策略。

On-line scheduling method of carrier based aircraft recovery based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的舰载机出动回收在线调度方法
本专利技术涉及舰载机出动回收调度领域,主要是涉及一种对于解决大规模舰载机在线调度问题,在考虑多种约束和突发状况时,应用深度强化学习算法优化的调度决策方法。
技术介绍
航空母舰体现了一个国家航海作战的能力,航母的作战能力则主要取决于航母上舰载机的出动能力,但由于航空母舰体量大、航母甲板环境复杂、设备操作困难和航母上无人设备逐渐增多等原因,导致舰载机出动和回收过程是在空间有限并充满危险的环境下进行,因此需要依靠弹射器、着舰跑道和操作人员等受限制的资源高速工作来完成。如何在恶劣作业环境下合理利用有限甲板空间和保障资源,安全且高效地出动舰载机执行作战任务,一直是世界各国航母研制的关键问题和航母作战指挥的关键技术。一个可靠的任务动作决策者需要为任务中的每一个舰载机规划可行的调度方案,这包括了从飞机出动前保障到着舰回收后停机的整个调度过程,实现在不确定的环境下能够安全并且高效地操作。舰载机调度问题的研究经历了从人工调度逐渐转变为计算机辅助调度,发展到现在的人工智能决策调度。由于人工调度决策在复杂约束情况下处理信息和创造细节计划能力与自动系统相比是受限制的,单纯依靠人工操作最终会限制舰载机调度的表现,因此需要利用智能优化算法辅助人工调度。目前国内外学者大多是采用传统的人工智能算法解决舰载机调度问题,如遗传算法、粒子群算法、混合差分算法等。这类算法将提前制定固定批次大小的任务放入算法模型中,通过计算得到对应该批次任务的指定调度方案。由于启发式算法计算量大,大多数国内外学者都只研究了小批量舰载机群的调度问题,这在实际的作战过程中是不合理的。同时,在飞行甲板操作规划和调度的使用过程中,例如舰载机不能按时起飞,弹射器或牵引设备无法工作,保障任务无法及时完成等不可预知的状况发生时,如果没有及时给出新的调度策略,将会导致十分严重的后果。因此决策方法必须具有灵活快速地解决实时状况的能力,而传统的启发式算法不仅在调度计算中会花费大量的时间,并且缺乏实时性,在线调度能力差。强化学习的过程是通过智能体与环境不断交互学习,最终得到在指定状态下能够采取最优动作的策略,强化学习在线下学习到状态对应动作的策略后,可以应用在在线调度问题中。Sutton提出时间差分算法,该方法是一种无模型的强化学习算法,无需预先已知模型动态,可以用于非情景任务,典型的时间差分算法有Q学习和SARSA。深度强化学习是结合了深度学习神经网络和强化学习方法,近年来,深度强化学习在调度领域取得了较好的效果。里海大学利用DQN网络建立多智能体模型对库存和供应链调度进行优化;王等利用GoogleDeepMind团队提出的A3C(AsynchronousAdvantageActor-Critic)算法解决了卫星规模化的在线调度,并解决了分布式状态下多智能体的强化学习问题;Lin等将调度策略作为执行的行为,利用DQN网络解决复杂的生产车间调度问题。
技术实现思路
为了能够得到大规模舰载机在航母甲板上出动回收过程的安全高效的在线调度策略,本专利技术首次提出利用深度强化学习算法解决该调度问题。目标是实现在高峰出动情况下,考虑尽量缩短舰载机甲板移动距离、减少舰载机舰面会遇次数并避免舰载机坠毁,同时优化各设备使用的利用率、稳定作业周期。根据实际任务情况,将舰载机出动回收调度构建为马尔科夫决策过程,考虑多种约束和突发状况,针对当前模型利用优化的深度Q网络(DeepQ-learningNetwork,DQN)网络对模型进行深度强化学习训练。本专利技术能够实现舰载机多目标在线调度过程,面临突发状况时可以迅速解决并不影响后续任务的执行,体现了强化学习算法的实时性和灵活性。同时验证深度强化学习网络在该问题上能够近似收敛,本专利技术在平衡多目标函数优化时能得到较好的效果,获得较安全高效的调度策略。基于深度强化学习的舰载机出动回收多在线调度方法主要包括以下步骤:1、环境建模,通过将问题转化为马尔可夫决策过程,实现多目标的舰载机在线调度。1.1建立航母甲板的平面直角坐标系,按照实际比例设置各机位和跑道的点位坐标,计算求得各点间转移位移。1.2通过衡量调度算法的安全性和高效性来衡量舰载机的出动回收能力,这是一个多目标优化的调度问题。因此设目标函数f如式(1)所示,设计为最小化舰载机甲板移动总距离T_Dis,最小化舰载机舰面冲突次数T_Conf,以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和,来最大化各保障机位和弹射机位的利用率T_Balan。f=min(T_Dis)||min(T_Conf)||max(T_Balan)(1)1.3由于舰载机出动回收调度不能根据当前状态来确定最终整体的调度效果,因此属于随机性环境;调度的过程是在任何时候都可以被确定的,因此属于完全可观测环境;状态转移的行为状态是有限个数的,因此归属于离散环境;由于执行的所有行为都是相关的,当前的行为会影响到今后的行为,因此属于非情景环境;该问题选用单智能体环境,即环境中只有一个智能体,本模型中的智能体确定为调度的决策者。以调度决策者为智能体,依照马尔可夫决策过程构建状态空间s_space如式(3)所示。s_space={′E0′:op,...,′Em′:op,′A0′:[op,fuel,posl],...,′An′:[op,fuel,posl]}(3)设备组表示为[E0,E1,...,Em],包括了保障区域保障设备组以及弹射器;舰载机群表示为[A0,A1,…,An];设备及舰载机可用状态表示为op,用布尔值表示可用或不可用;舰载机所剩油量fuel可以离散的划分为0~3四个等级;当前位置表示为[pos0,pos1,...,posl],包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库。动作集定义为某一舰载机移动到某一位置的集合,动作空间a_space表示如式(4)所示。a_space=[[A0,P0],[A0,P1],...,[An-1,Pm-1]](4)A=[0,1,2,…,n-1]为舰载机集合,P=[0,1,2,...,m-1]为位置集合,动作空间大小为m×n。状态转移是指智能体从当前状态执行动作转移到下一状态的过程。在本调度问题中需要考虑几项约束,详见式(5-9)。式(5)是油量约束,Ai表示舰载机,S表示保障机位集合,Fi表示油量等级,Pi表示舰载机当前位置,即舰载机油量等级为0时,若此舰载机不位于保障机位上,则该舰载机坠亡;式(6)是技术约束,T是按照执行顺序排列的任务集合,ST是任务开始时间,ET是任务结束时间。舰载机任务必须按照“保障—>弹射—>作战—>渐进航线—>着舰—>保障/停机/维修”的顺序执行,并且必须在完成上一任务后才能进入下一任务;式(7)是互斥约束,Tij是舰载机i在停机位j的时间戳,本文档来自技高网
...

【技术保护点】
1.基于深度强化学习的舰载机出动回收在线调度方法,其特征在于,包括以下步骤:/n1.1环境建模,通过将问题转化为马尔可夫决策过程,实现多目标的舰载机在线调度;/n(1.1.1)建立航母甲板的平面直角坐标系,按照实际比例设置各机位和跑道的点位坐标,计算求得各点间转移位移;/n(1.1.2)设目标函数f如式(1)所示,设计为最小化舰载机甲板移动总距离T_Dis,最小化舰载机舰面冲突次数T_Conf,以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和,来最大化各保障机位和弹射机位的利用率T_Balan;/nf=min(T_Dis)||min(T_Conf)||max(T_Balan) (1)/n

【技术特征摘要】
1.基于深度强化学习的舰载机出动回收在线调度方法,其特征在于,包括以下步骤:
1.1环境建模,通过将问题转化为马尔可夫决策过程,实现多目标的舰载机在线调度;
(1.1.1)建立航母甲板的平面直角坐标系,按照实际比例设置各机位和跑道的点位坐标,计算求得各点间转移位移;
(1.1.2)设目标函数f如式(1)所示,设计为最小化舰载机甲板移动总距离T_Dis,最小化舰载机舰面冲突次数T_Conf,以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和,来最大化各保障机位和弹射机位的利用率T_Balan;
f=min(T_Dis)||min(T_Conf)||max(T_Balan)(1)



(1.1.3)以调度决策者为智能体,依照马尔可夫决策过程构建状态空间sspace如式(3)所示;
sspace={′E0′:op,...,′Em′:op,′A0′:[op,fuel,posl],...,′An′:[op,fuel,posl]}(3)
设备组表示为[E0,E1,...,Em],包括了保障区域保障设备组以及弹射器;舰载机群表示为[A0,A1,...,An];设备及舰载机可用状态表示为op,用布尔值表示可用或不可用;舰载机所剩油量fuel离散的划分为0~3四个等级;当前位置表示为[pos0,pos1,...,posl],包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库;
动作集定义为某一舰载机移动到某一位置的集合,动作空间aspace表示如式(4)所示;
aspace=[[A0,P0],[A0,P1],...,[An-1,Pm-1]](4)
A=[0,1,2,...,n-1]为舰载机集合,P=[0,1,2,...,m-1]为位置集合,动作空间大小为m×n;
状态转移是指智能体从当前状态通过执行动作转移到下一状态的过程,在本调度问题中需要考虑几项约束,详见式(5-9);















式(5)是油量约束,Ai表示舰载机,S表示保障机位集合,Fi表示油量等级,Pi表示舰载机当前位置,即舰载机油量等级为0时,若此舰载机不位于保障机位上,则该舰载机坠亡;式(6)是技术约束,T是按照执行顺序排列的任务集合,ST是任务开始时间,ET是任务结束时间,舰载机任务必须按照“保障—>弹射—>作战—>进入渐近线—>着舰—>保障/停机/维修”的顺序执行,并且必须在完成上一任务后才能进入下一任务;式(7)是互斥约束,Tij是舰载机i在停机位j的时间戳,Tkj是舰载机k在停机位j的时间戳,对于任意的两个舰载机都不能共用停机位,也就是各舰载机在同一停机位的时间戳不能重合;式(8)是空间约束,TL/TT3/TT4分别是着舰跑道和3号、4号弹射器被使用的时间戳集合,由于甲板空间狭小,着舰跑道和跑道附近的弹射器不能同时使用,设这两个弹射器标号为3号和4号;式(9)是任务约束,P是任务优先级集合,舰载机舰面会遇时按照当前舰载机任务优先级决定通过顺序;
目标函数由多个影响因素构成,奖赏函数用线性化方法表示;根据目标函数,将奖赏函数定义成一个权重向量的转置与当前状态s下的特征向量φ(s)的乘积;当前状态s的单步奖赏R(s)表示为式(10);



其中权重向量中的各个数值根据对应的特征向量中包含的因素对于目标回报影响的程度进行设置;状态特征向量定义为以下7个特征值:1号特征值为濒临坠亡的舰载机...

【专利技术属性】
技术研发人员:于彤彤董婷婷肖创柏
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1