基于双向长短期记忆网络的空间站在轨事件规划方法技术

技术编号：40346139 阅读：6 留言：0更新日期：2024-02-09 14:31

本申请涉及一种基于双向长短期记忆网络的空间站在轨事件规划方法，通过采用深度学习网络对待进行规划在轨事件的具体开始时间进行规划，其中利用在轨事件规划网络求解器对多个在轨事件进行规划，在将多个在轨事件输入网络前，还将其根据相关的属性信息将各在轨事件处理成序列格式，再将其输入至网络中，而在对该在轨事件规划网络求解器进行训练时采用强化学习框架，并给出表示任务方案收益指标的目标函数，在进行训练时，以目标函数的计算结果满足预设条件为训练停止标准，相应得到训练好的在轨事件规划网络求解器，采用本方法提高在轨事件规划过程效率的同时，保证得到的在轨任务方案满足资源约束。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及空间站实时在轨事件规划的，特别是涉及一种基于双向长短期记忆网络的空间站在轨事件规划方法。

技术介绍

1、空间站在轨事件自动规划，是空间站运营管理的关键技术，其所涉及到的在轨事件类型多样复杂，包括平台维护和维修、交会对接、乘员生命保障和科学实验等。这些事件涉及到众多资源的约束，如平台能源、通信资源和航天员时间等。为实现高效益智能化运营，空间站需要有成熟的运营任务规划技术的支持。

2、空间站实时在轨事件规划问题实际上属于车间调度问题，规划过程中的多类资源约束下的调度是解决该类规划问题的关键技术之一。目前在对空间站运营规划相关技术的研究中，如基于规则构造的启发式算法。该算法针对具体问题具体设计，是具有先验知识的一种规则算法。其在预先制定的规则下进行任务编排寻找可行解，其计算速度快，能够快速得到可行解。但是其得到的结果并不是最优解。另一种方法是利用智能优化算法，如遗传算法、粒子群算法等，其通过大量的迭代找到最优解，迭代时间长，计算效率低。结合近几年人工智能在车间调度问题上的发展，以及该问题处理复杂资源约束难的特点，该类型问题需要新的探索。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够对在轨任务进行智能规划的基于双向长短期记忆网络的空间站在轨事件规划方法。

2、一种基于双向长短期记忆网络的空间站在轨事件规划方法，所述方法包括：

3、获取在轨事件训练集，所述在轨事件训练集中包括多个在轨训练事件以及各所述在轨训练事件的相关信息，以及

4、根据各所述在轨训练事件的相关信息生成对应的在轨事件属性训练序列，并将各所述在轨事件属性训练序列输入至在轨事件规划网络求解器中，输出多个在轨事件特征，并对多个在轨事件特征进行处理得到初步在轨任务方案；

5、根据所述初步在轨任务方案对目标函数进行计算，基于a3c框架对所述在轨事件规划网络求解器进行迭代训练，调整所述在轨事件规划网络求解器中的参数，再将各所述在轨事件属性训练序列输入至参数调整后的在轨事件规划网络求解器，并根据输出数据计算目标函数；

6、若迭代次训练次数满足预设值，则对目标函数的计算结果进行判断，若计算结果满足预设条件，则所述在轨事件规划网络求解器完成训练，得到训练后的在轨事件规划网络求解器；

7、若计算结果不满足预设条件，则继续利用a3c框架对所述在轨事件规划网络求解器进行训练，直至所述目标函数的计算结果满足预设条件，则得到训练后的在轨事件规划网络求解器；

8、获取待规划的多个在轨事件及相关信息，根据各所述在轨事件的相关信息生成对应的在轨事件属性序列，将各所述在轨事件属性序列输入至所述训练后的在轨事件规划网络求解器中并输出多个特征，根据对各所述特征进行处理得到在轨任务方案。

9、在其中一实施例中，所述在轨事件属性训练序列包括：在轨训练事件对应的序号、优先级、最早开始时间、结束时间、活动持续时间、电能消耗、热能消耗、通信带宽消耗和人时消耗。

10、在其中一实施例中，所述对多个在轨事件特征进行处理得到初步在轨任务方案包括：

11、对多个在轨事件特征进行处理得到各所述在轨训练事件的具体开始时间，并根据各所述在轨训练时间的具体开始时间构建在轨任务规划集；

12、根据所述资源约束信息判断所述在轨任务规划集是否满足资源约束，若不满足，则根据冲突时间延迟策略以及时间冗余启发式规则对所述在轨任务规划集进行调整生成所述初步在轨任务方案。

13、在其中一实施例中，若所述在轨任务规划集不满足资源约束，则将其中优先级最低的在轨训练事件放入待规划事件集中，若此时所述在轨任务规划集中还存在不满足资源约束的在轨训练事件，则根据冲突时间延迟策略以及时间冗余启发式规则进行调整生成所述初步在轨任务方案。

14、在其中一实施例中，所述目标函数表示为：

15、

16、在上式中，np表示被规划的在轨训练事件总数，mi.priority表示所述初步在轨任务方案中第i个在轨训练事件执行的优先级。

17、在其中一实施例中，所述在轨事件规划网络求解器包括依次连接的一维卷积层、双向lstm层以及激活层；

18、所述一维卷积层用于接收多个所述在轨事件属性训练序列，提取各所述在轨事件属性训练序列中的有效特征，并将各所述有效特征输入至所述双向lstm层；

19、所述双向lstm层用于学习接收到的多个所述有效特征中的重要特征，并将各所述重要特征输入至所述激活层；

20、所述激活层用于对接收到的多个所述重要特征进行处理后，输出多个所述在轨事件特征。

21、在其中一实施例中，在利用a3c框架对所述在轨事件规划网络求解器进行训练时，将各所述在轨训练事件的属性作为所述a3c框架的状态空间，将当前初步在轨任务方案中各在轨训练事件的开始时间作为所述a3c框架的动作空间，将当前初步在轨任务方案关于所述资源约束满足情况作为所述a3c框架的奖励。

22、在其中一实施例中，所述a3c框架采用异步优势演员评论家算法训练。

23、一种空间站实时在轨事件规划基于双向长短期记忆网络的空间站在轨事件规划装置，所述装置包括：

24、训练集获取模块，用于获取在轨事件训练集，所述在轨事件训练集中包括多个在轨训练事件以及各所述在轨训练事件的相关信息，以及在轨任务方案的资源约束信息；

25、初步在轨任务方案获取模块，用于根据各所述在轨训练事件的相关信息生成对应的在轨事件属性训练序列，并将各所述在轨事件属性训练序列输入至在轨事件规划网络求解器中，输出多个在轨事件特征，并对多个在轨事件特征进行处理得到初步在轨任务方案；

26、在轨事件规划网络求解器模块，用于根据所述初步在轨任务方案对目标函数进行计算，基于a3c框架对所述在轨事件规划网络求解器进行迭代训练，调整所述在轨事件规划网络求解器中的参数，再将各所述在轨事件属性训练序列输入至参数调整后的在轨事件规划网络求解器，并根据输出数据计算目标函数；

27、目标函数计算结果判断模块，用于若迭代次训练次数满足预设值，则对目标函数的计算结果进行判断，若计算结果满足预设条件，则所述在轨事件规划网络求解器完成训练，得到训练后的在轨事件规划网络求解器；

28、在轨事件规划网络求解器训练完成模块，用于若计算结果不满足预设条件，则继续利用a3c框架对所述在轨事件规划网络求解器进行训练，直至所述目标函数的计算结果满足预设条件，则得到训练后的在轨事件规划网络求解器；

29、在轨任务方案获取模块，用于获取待规划的多个在轨事件及相关信息，根据各所述在轨事件的相关信息生成对应的在轨事件属性序列，将各所述在轨事件属性序列输入至所述训练后的在轨事件规划网络求解器中并输出多个特征，根据对各所述特征进行处理得到在轨任务方案。

30、一种计算机设备，包括存储器和处本文档来自技高网...

【技术保护点】

1.基于双向长短期记忆网络的空间站在轨事件规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的空间站实时在轨事件规划方法，其特征在于，所述在轨事件属性训练序列包括：在轨训练事件对应的序号、优先级、最早开始时间、结束时间、活动持续时间、电能消耗、热能消耗、通信带宽消耗和人时消耗。

3.根据权利要求2所述的空间站实时在轨事件规划方法，其特征在于，所述对多个在轨事件特征进行处理得到初步在轨任务方案包括：

4.根据权利要求3所述的空间站实时在轨事件规划方法，其特征在于，若所述在轨任务规划集不满足资源约束，则将其中优先级最低的在轨训练事件放入待规划事件集中，若此时所述在轨任务规划集中还存在不满足资源约束的在轨训练事件，则根据冲突时间延迟策略以及时间冗余启发式规则进行调整生成所述初步在轨任务方案。

5.根据权利要求4所述的空间站实时在轨事件规划方法，其特征在于，所述目标函数表示为：

6.根据权利要求1-5任一项所述的空间站实时在轨事件规划方法，其特征在于，所述在轨事件规划网络求解器包括依次连接的一维卷积层、双向LSTM层以及激活层；

7.根据权利要求6所述的空间站实时在轨事件规划方法，其特征在于，在利用A3C框架对所述在轨事件规划网络求解器进行训练时，将各所述在轨训练事件的属性作为所述A3C框架的状态空间，将当前初步在轨任务方案中各在轨训练事件的开始时间作为所述A3C框架的动作空间，将当前初步在轨任务方案关于所述资源约束满足情况作为所述A3C框架的奖励。

8.根据权利要求7所述的空间站实时在轨事件规划方法，其特征在于，所述A3C框架采用异步优势演员评论家算法训练。

...

【技术特征摘要】

1.基于双向长短期记忆网络的空间站在轨事件规划方法，其特征在于，所述方法包括：

3.根据权利要求2所述的空间站实时在轨事件规划方法，其特征在于，所述对多个在轨事件特征进行处理得到初步在轨任务方案包括：

4.根据权利要求3所述的空间站实时在轨事件规划方法，其特征在于，若所述在轨任务规划集不满足资源约束，则将其中优先级最低的在轨训练事件放入待规划事件集中，若此时所述在轨任务规划集中还存在不满足资源约束的在轨训练事件，则根据冲突时间延迟策略以及时间冗余启发式规则进行调整生成所述初步在轨任务...

【专利技术属性】
技术研发人员：郭帅，宫贺，张嘉诚，罗亚中，朱阅訸，张进，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人