基于深度强化学习的动态试飞任务规划方法技术

技术编号:37306615 阅读:7 留言:0更新日期:2023-04-21 22:51
一种基于深度强化学习的动态试飞任务规划方法,以同时最小化试飞周期和任务延期度为目标,构建试飞任务规划问题模型以及试飞任务选择规则和驾机安排的启发式规则;定义包括试验驾机特征信息、系统特征信息和未完成任务特征信息的试飞任务规划环境的状态信息以及基于规划目标的奖励函数;通过建立基于决策

【技术实现步骤摘要】
基于深度强化学习的动态试飞任务规划方法


[0001]本专利技术涉及的是一种飞机制造领域的技术,具体是一种基于深度强化学习的动态试飞任务规划方法。

技术介绍

[0002]试飞任务规划问题作为一类NP难问题,存在三大类求解算法。第一类为精确算法,此类方法可以求出结构化的组合优化问题的最优解,例如,分支定界法、数学规划法等。精确方法是一类完备的优化问题求解方法,但精确方法在解决大规模问题时效率低下。启发式算法,是一种基于直观或经验构造的面向问题的方法,在实际应用时,通常根据一定规则,逐步进行搜索生成任务执行的方案。启发式算法简单、直观易实现,提高算法的效率,容易陷入局部最优。元启发式算法,在仿生学的启发下,从自然界中的随机现象中获取灵感。典型的算法有蚁群算法,遗传算法等。元启发式算法虽然可以一种可以在一定时间内得到一个近似最优解,但在实时问题中,由于其差的泛化性导致在系统每次发生变化的情况下都需要重新计算,计算成本会随着系统的复杂程度的提高大幅度增加。因此为同时平衡全局性和计算效率,为满足实际试飞执行过程的要求,需要专利技术一种能够快速响应动态事件并在可接受的时间内生成可行有效的任务规划方案的方法。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足,提出一种基于深度强化学习的动态试飞任务规划方法,针对三种常见的动态事件建立针对试飞任务规划问题的马尔可夫决策过程模型,使得深度学习方法适用于解决动态试飞任务规划问题的同时,设计相应的状态特征、动作策略以及奖励函数并结合多种启发式规则作为动作策略,既保证算法的计算效率,也可以提高启发式规则的全局最优能力,显著优化试飞周期和任务延期度。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于深度强化学习的动态试飞任务规划方法,包括:
[0006]步骤1、以同时最小化试飞周期和任务延期度为目标,构建试飞任务规划问题模型:针对m架试验机AC={AC1,AC2,...,AC
m
},n个试飞任务T={T1,T2,...,T
n
},其中:每一个试飞任务T
i
只能在一组特定试飞机的集合上且必须在其前置试飞任务完成后进行试飞,TP
i
为任务T
i
的前置任务集合;任务T
i
的到位时间和预计完成时间分别为和预计试飞时长为t
i
;试验机AC
k
在部署时间a
k
后投入使用。
[0007]所述的试飞任务,受到以下动态事件影响而更新,包括:
[0008]1)任务的试飞时长改变:随着试飞试验的进行,一些任务的试飞时长可能会由于初始评估不准确或技术/人为因素而发生变化。
[0009]2)无效的任务测试结果:任务测试结果无法确认,无效的任务将不会从未完成的飞行任务集中删除。
[0010]3)飞机停飞:飞机故障或支持设备故障将导致飞机停飞以进行维修。
[0011]步骤2、构建试飞任务选择规则和驾机安排的启发式规则;
[0012]所述的试飞任务选择规则包括:
[0013]1)选择具有最早完成时间最小值的任务:对于任务T
i
的最早完成时间为:的最早完成时间为:其中:a
k
表示驾机k的部署时间;c
k,end
为驾机k的结束时间;为任务T
i
的前置任务完成的最大时间;为任务T
i
的准备就绪时间;t
i
表示任务任务T
i
的试飞执行时间。
[0014]2)选择前向等级和最早开始时间之和最小的任务:对于任务T
i
的的前向等级为:其中:succ(T
i
)表示任务T
i
的直接后续任务节点集合。
[0015]3)选择具有后向等级最小值的任务:对于任务T
i
的的后向等级为:的的后向等级为:其中:pred(T
i
)是任务T
i
的直接前置任务集合;AC
i
为任务T
i
的兼容驾机集合。
[0016]4)选择前向等级和后向等级之和最小的任务。
[0017]所述的驾机安排的启发式规则包括:
[0018]a)选择具有最早空闲时间的驾机。
[0019]b)选择驾机利用率最小的驾机:驾机k在时刻t的利用率为:b)选择驾机利用率最小的驾机:驾机k在时刻t的利用率为:其中:n为所要安排的任务数量;FTD(t)表示时刻t的最大任务完成时间;X
ik
为一个二元变量,如果任务T
i
被分配到驾机k上,则值为1,否则为0。
[0020]c)随机选择可兼容的驾机。
[0021]步骤3、定义包括试验驾机特征信息、系统特征信息和未完成任务特征信息的试飞任务规划环境的状态信息。
[0022]所述的试验驾机特征信息包括:
[0023]1)试验架机数量m;
[0024]2)试验驾机平均利用率其中:U
k
(t)为驾机k的在时刻t利用率;
[0025]3)试验驾机利用率标准差
[0026]所述的系统特征信息包括:
[0027]1)未完成任务比率其中:TA(t)为时刻t未完成的任务集合,N
TA
(t)为时刻t未完成的任务集合中任务的数量;
[0028]2)未完成任务时间比率其中:T
sum
为为试飞任务执行的总时长;
[0029]3)未完成任务中存在完成时间节点的比率其中:UD(t)为时刻t未完成且有完成时间要求的任务集合,N
UD
(t)为UD(t)集合中任务的数量;
[0030]4)实际延迟任务比率其中:AD(t)为时刻t已经延期的任务集合,N
AD
(t)为AD(t)集合中任务的数量;
[0031]5)预计延迟任务比率其中:为时刻t预计延期的任务集合,N
ED
(t)为ED(t)集合中任务的数量;
[0032]6)就绪任务比率其中:为时刻t准备就绪的任务集合,N
RTQ
(t)为RTQ(t)集合中任务的数量;
[0033]7)紧急任务比率其中:EMT(t)={T
i
|LCT(T
i
)

FTD(t)≤0,T
i
∈RTQ(t)}为时刻t的紧急任务集合,N
EMT
(t)为EMT(t)集合中任务的数量。
[0034]所述的未完成任务特征信息包括:
[0035]1)平均前向等级
[0036]2)前向等级标准差
[0037]3)平均后向等级
[0038]4)后向等级标准差
[0039]5)平均后置科目数
[0040]6)后置科目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的动态试飞任务规划方法,其特征在于,以同时最小化试飞周期和任务延期度为目标,构建试飞任务规划问题模型以及试飞任务选择规则和驾机安排的启发式规则;定义包括试验驾机特征信息、系统特征信息和未完成任务特征信息的试飞任务规划环境的状态信息以及基于规划目标的奖励函数;通过建立基于决策

评价的近端策略优化(PPO)模型,利用训练数据对优化模型进行训练后,在线动态规划试飞任务。2.根据权利要求1所述的基于深度强化学习的动态试飞任务规划方法,其特征是,所述的试飞任务规划问题模型是指:针对m架试验机AC={AC1,AC2,...,AC
m
},n个试飞任务T={T1,T2,...,T
n
},其中:每一个试飞任务T
i
只能在一组特定试飞机的集合上且必须在其前置试飞任务完成后进行试飞,TP
i
为任务T
i
的前置任务集合;任务T
i
的到位时间和预计完成时间分别为和预计试飞时长为t
i
;试验机AC
k
在部署时间a
k
后投入使用;所述的试飞任务,受到以下动态事件影响而更新,包括:1)任务的试飞时长改变:随着试飞试验的进行,一些任务的试飞时长可能会由于初始评估不准确或技术/人为因素而发生变化;2)无效的任务测试结果:任务测试结果无法确认,无效的任务将不会从未完成的飞行任务集中删除;3)飞机停飞:飞机故障或支持设备故障将导致飞机停飞以进行维修。3.根据权利要求1所述的基于深度强化学习的动态试飞任务规划方法,其特征是,所述的试飞任务选择规则包括:1)选择具有最早完成时间最小值的任务:对于任务T
i
的最早完成时间为:的最早完成时间为:其中:a
k
表示驾机k的部署时间;c
k,end
为驾机k的结束时间;为任务T
i
的前置任务完成的最大时间;为任务T
i
的准备就绪时间;t
i
表示任务任务T
i
的试飞执行时间;2)选择前向等级和最早开始时间之和最小的任务:对于任务T
i
的的前向等级为:其中:succ(T
i
)表示任务T
i
的直接后续任务节点集合;3)选择具有后向等级最小值的任务:对于任务T
i
的的后向等级为:的的后向等级为:其中:pred(T
i
)是任务T
i
的直接前置任务集合;AC
i
为任务T
i
的兼容驾机集合;4)选择前向等级和后向等级之和最小的任务;所述的驾机安排的启发式规则包括:a)选择具有最早空闲时间的驾机;b1选择驾机利用率最小的驾机:驾机k在时刻t的利用率为:b1选择驾机利用率最小的驾机:驾机k在时刻t的利用率为:其中:n为所要安排的任务数量;FTD(t)表示时刻t的最大任务完成时间;X
ik
为一个二元变量,如果任务T
i
被分配到驾机k上,则值为1,否则为0;c)随机选择可兼容的驾机。4.根据权利要求1所述的基于深度强化学习的动态试飞任务规划方法,其特征是,所述
的试验驾机特征信息包括:试验架机数量m、试验驾机平均利用率的试验驾机特征信息包括:试验架机数量m、试验驾机平均利用率其中:U
k
(t)为驾机k的在时刻t利用率、试验驾机利用率标准差所述的系统特征信息包括:未完成任务比率其中:TA(t)为时刻t未完成的任务集合,N
TA
(t)为时刻t未完成的任务集合中任务的数量、未完成任务时间比率其中:T
sum
为为试飞任务执行的总时长、未完成任务中存在完成时间节点的比率UD(t)为时刻t未完成且有完...

【专利技术属性】
技术研发人员:肖刚田蓓沈玙
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1