一种基于强化学习的综合化航空电子系统可调度分析方法技术方案

技术编号：44960012 阅读：6 留言：0更新日期：2025-04-12 01:29

本发明专利技术提出了一种基于强化学习的综合化航空电子系统可调度分析方法，包括：根据综合化航空电子系统可调度问题设计马尔可夫决策过程，构建虚拟环境；将基于价值的强化学习算法与多头注意力机制进行结合，通过智能体与虚拟环境进行交互，学习得到最优状态‑动作值函数；当智能体与环境进行交互时，使用最优状态‑动作值函数，获得当前状态下每个可行动作的价值；选择具有最高价值的可行动作，并执行该可行动作；获取下一个状态和奖励，并将奖励累加；或者将基于策略的强化学习算法与多头注意力机制进行结合，学习得到最优策略函数；使用最优策略函数获得若干预选动作，执行得分最高的候选动作序列。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于安全关键软件，具体为一种基于强化学习的综合化航空电子系统可调度分析方法。

技术介绍

1、在过去的飞机系统中，曾经采用了联邦式架构：每个航空电子功能都集成在一个单独的计算资源上，形成了“一功能等于一台计算机”的模式。这种架构所隐含的应用程序隔离促进了运行时的安全故障隔离，但代价是飞机需要嵌入过多的重量、体积和电缆，以便为所有模块提供足够的电力和连接。随着航空电子系统的不断演进，现代飞机已经嵌入了比早期飞机更为智能的功能。与旧有架构相比，新功能被添加到现代系统的数量呈指数增长，使得“一功能等于一台计算机”的模式及其所需的计算资源、重量和电力消耗变得不再可行。

2、为了应对这一挑战，综合模块化航空电子(ima)架构应运而生。在ima架构下，多个航空电子功能可以在同一台计算机上共享计算资源。ima不仅有效减少了飞机所需的空间、重量和功率消耗，而且通过集成多个功能到一个模块中，实现了处理资源、电源供应和i/o管理服务等组件的共享，进一步降低了系统的热散和燃油消耗。此外，ima架构的另一大优势在于其通用性，这有利于在设计阶段实现特定应用与其他应用以及硬件平台的独立性，从而促进了系统的灵活性和可扩展性。

3、当前航空电子系统的管理和调度任务大多是手动进行的，并没有有效地考虑在多核处理器环境下因为资源竞争而可能发生的时间延误。这导致一旦系统发生变更或需要升级，现有的任务分配和调度程序就必须重新进行规划，这个过程相当耗时且工作量巨大。

技术实现思路

1、专利技术

2、技术方案：一种基于强化学习的综合化航空电子系统可调度分析方法，包括以下步骤：

3、步骤1：根据综合化航空电子系统可调度问题设计马尔可夫决策过程，构建虚拟环境；

4、步骤2：将基于价值的强化学习算法与多头注意力机制进行结合，通过智能体与虚拟环境进行交互，学习得到最优状态-动作值函数；

5、步骤3：当智能体与环境进行交互时，使用步骤2得到的最优状态-动作值函数，获得当前状态下每个可行动作的价值；选择具有最高价值的可行动作，并执行该可行动作；获取下一个状态和奖励，并将奖励累加。

6、进一步的，所述的根据综合化航空电子系统可调度问题设计马尔可夫决策过程，构建虚拟环境，具体包括：

7、对综合化航空电子系统可调度问题进行建模；

8、根据综合化航空电子系统可调度模型，构造马尔可夫决策过程，构建虚拟环境。

9、进一步的，所述的对综合化航空电子系统可调度问题进行建模，具体包括：

10、按照下式，计算每核心上的分区执行任务所需的时间预算，表示为：

11、

12、式中，表示分区pi上被分配在核心c上的任务所需要的时间预算，csw表示从刚刚完成其执行的任务到下一个计划的任务的上下文切换所对应的开销；

13、

14、rj表示任务j执行时间，pidj表示任务所属分区代号，i表示分区代号，k表示分区所在的帧，pi表示分区的周期，tj表示任务的周期；

15、比较核心上的所有分区的时间预算，取最大值作为分区的总时间预算，具体计算公式如下：

16、

17、式中，表示分区pi在第k帧的总时间预算，c表示所在核心，nc表示核心数量；

18、maf为主时间框架，mif为次时间框架，将maf分为等长的帧，一个mif为一帧，mif的数量为nframes，maf和mif的长度与周期相关，周期总是mif长度的整数倍，表示为：

19、

20、

21、式中，pi表示分区标识，lcm表示最小公倍数，gcd表示最大公因数。

22、进一步的，所述的根据综合化航空电子系统可调度模型，构造马尔可夫决策过程，构建虚拟环境，具体操作包括：

23、在调度问题的求解过程中，每个状态下的可选行动是为当前分区分配一个开始时间，将动作空间定义为：at＝{v},v∈[0,maf]；式中，v表示为当前分区分配的开始时间；

24、为了确定每个分区的开始时间，在状态定义中引入一个全局的动作数组，该动作数组用于存储在求解过程中每一次所选择的动作值，该动作值指每个分区的开始时间；

25、状态转移过程描述为一个四元组：(st,at,rt,st+1)；式中，st表示时间步t的状态，at表示在状态st下智能体选择执行的动作，rt表示智能体在状态st下执行动作at后获得的即时奖励，st+1表示执行动作后环境进入的下一个状态；

26、奖励函数表示为：

27、

28、式中，n为调度问题中的任务数量，items_taken为全局的动作数组，cpu_time[i]表示分区的时间预算；

29、以此构造马尔可夫决策过程，构建虚拟环境。

30、进一步的，所述的将基于价值的强化学习算法与多头注意力机制进行结合，通过智能体与虚拟环境进行交互，学习得到最优状态-动作值函数，具体包括：

31、所述基于价值的强化学习算法为ddqn算法，该算法在学习过程中，每个智能体都会构建一个评估网络和一个目标网络，所述评估网络用于生成针对任务的调度策略，该评估网络的输入是状态s，输出是基于状态计算出的调度价值函数q(s,a,ω)，ω表示评估网络的参数，所述目标网络则用于评估下一个状态的调度价值函数q(s',a',ω')，下一个状态的调度价值函数q(s',a',ω')将作为评估网络学习的目标值，ω'为目标网络的参数；

32、所述ddqn算法，包括：

33、首先，初始化经验回放池以及所有智能体的评估网络的参数ω和目标网络的参数ω'；所述经验回放池用于存储智能体与环境交互产生的数据，该数据以四元组的形式存在，表示为(st,at,rt,st+1)；

34、随后，每个智能体与环境进行交互，对于任意一个智能体，接收当前的状态s作为输入，利用ε-greedy探索策略选择动作a，执行该动作a；所述ε-greedy探索策略，表示为：

35、

36、式中，a表示动作，argmaxq(s,a)表示在当前状态s下选择q值最大的动作，p表示选择的概率，ε表示最低探索率；

37、选择下一个动作时，使用评估网络基于当前参数ω找到使q值最大的动作a'＝argmaxq(s',a',ω)，式中，a'表示下一个状态s′下所有可能动作的最大q值，s'表示下一个状态，ω表示策略网络的参数；

38、然后，观察环境并获取新的状态st+1和即时奖励rt；

39、当所有智能体与环境完成一轮互动后，本文档来自技高网...

【技术保护点】

1.一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的根据综合化航空电子系统可调度问题设计马尔可夫决策过程，构建虚拟环境，具体包括：

3.根据权利要求2所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的对综合化航空电子系统可调度问题进行建模，具体包括：

4.根据权利要求3所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的根据综合化航空电子系统可调度模型，构造马尔可夫决策过程，构建虚拟环境，具体操作包括：

5.根据权利要求4所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的将基于价值的强化学习算法与多头注意力机制进行结合，通过智能体与虚拟环境进行交互，学习得到最优状态-动作值函数，具体包括：

6.根据权利要求5所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述评估网络和目标网络均包括编码器和解码器；</p>

7.一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：包括以下步骤：

8.根据权利要求7所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的根据综合化航空电子系统可调度问题设计马尔可夫决策过程，构建虚拟环境，具体包括：

9.根据权利要求7所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：使用PPO算法作为基于策略的强化学习算法。

10.根据权利要求9所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述PPO算法，具体包括：

...

【技术特征摘要】

1.一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：包括以下步骤：

5.根据权利要求4所述的一种基于强化学习的综合化航空电子系统可调度分析方法，其特征在于：所述的将基于价值的强化学习算法与多头注意力机制进行结合...

【专利技术属性】
技术研发人员：杨志斌，杨怡萍，周勇，郭鹏，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人