一种基于SAC的运载火箭软件控制方法与决策装置制造方法及图纸

技术编号：44034302 阅读：21 留言：0更新日期：2025-01-15 01:13

本申请涉及智能控制与软件管理领域，公开了一种基于SAC的运载火箭软件控制方法与决策装置，所述方法包括以下步骤：获取运载火箭软件系统的状态信息，构建统一表示；基于SAC算法生成最优动作；执行所述动作并采集动作执行后的反馈信息；利用反馈信息优化SAC模型中的演员网络和评论家网络，持续更新决策策略；基于优化后的策略，动态调整任务优先级、软件模块运行状态和异常恢复操作，并重新采集系统状态以闭环优化模型。本发明专利技术能够实时调整系统运行状态，提升任务调度效率、资源利用率及异常处理能力，实现对运载火箭软件系统的智能化管理，适用于复杂任务环境和高动态运行场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能控制与软件管理，具体为一种基于sac的运载火箭软件控制方法与决策装置。

技术介绍

1、运载火箭的软件系统在任务执行过程中扮演着至关重要的角色，涵盖了任务调度、测发控管理、数据遥测和异常处理等多个方面。现有的运载火箭软件控制系统通常依赖于预设规则或固定流程来完成任务的管理和控制。然而，这种传统的控制方法在面对复杂任务场景和高动态环境时存在明显的局限性。

2、首先，现有技术中对任务优先级的调整和资源分配多是基于静态的规则设计，难以适应任务突变或资源状况的实时变化。当高优先级任务临近截止时间时，系统往往无法快速调整其他任务的顺序或资源分配，导致任务执行效率低下。其次，软件模块的管理主要依赖人工干预或事先设定的固定策略，当软件模块出现异常或任务需求变化时，无法动态调整模块的启停状态和配置参数，影响系统的整体运行效率。此外，对于异常情况的处理，现有系统多通过预设的应急方案实现，其响应速度和智能化程度有限。当任务失败或系统资源超载时，系统无法针对实际情况选择最佳恢复策略，从而导致任务延误或资源浪费。

3、综上所述，现有技术缺乏对系统状态的动态感知能力，缺乏实时调整任务调度、软件管理和异常处理的智能化方法，难以满足运载火箭任务执行对灵活性、高效性和稳定性的要求。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于sac的运载火箭软件控制方法与决策装置，解决了现有软件系统在复杂任务环境下缺乏灵活性、自动化能力和智能化异常处理能力的问题，实现了任

2、为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于sac的运载火箭软件控制方法，包括以下步骤：

3、获取运载火箭软件系统的状态信息，构建统一表示；

4、基于软演员-评论家算法模型，生成对应状态信息的最优动作；

5、执行所述动作，并获取执行后的反馈信息；

6、利用反馈信息优化软演员-评论家算法模型，持续更新决策策略；

7、基于优化后的策略，动态调整运载火箭软件系统的运行状态。

8、优选的，所述获取运载火箭软件系统的状态信息的步骤包括：

9、采集当前任务的进展状态和优先级信息；

10、采集各软件模块的开关状态；

11、采集当前软件模块的配置参数，包括配置文件的日期和大小；

12、采集系统资源状态，包括cpu利用率、内存使用率及线程数；

13、采集系统异常信息，包括任务失败、软件崩溃及资源超载信息。

14、优选的，所述基于软演员-评论家算法模型，生成对应状态信息的最优动作的步骤包括：

15、调整任务优先级和任务调度顺序；

16、启动或关闭软件模块；

17、调整软件配置参数，包括配置文件的日期和大小；

18、启动、暂停或取消软件下载和更新操作；

19、执行异常处理操作，包括重启软件、重新分配资源和重新执行失败的任务。

20、优选的，所述反馈信息包括：

21、执行动作后系统的下一状态；

22、动作执行后获得的奖励值，奖励值用于表示动作对任务完成率、系统稳定性及资源利用率的影响。

23、优选的，所述利用反馈信息优化软演员-评论家算法模型，持续更新决策策略的步骤包括：

24、将当前状态、生成的动作、执行后的奖励值和下一状态存储到经验回放池；

25、从经验回放池中随机采样一个批次的状态、动作、奖励和下一状态数据；

26、使用以下损失函数优化评论家网络的参数：

27、；

28、其中，为当前评论家网络对状态和动作的价值评估；和为目标评论家网络的输出，分别表示对下一状态和动作的价值评估；为折扣因子，用于控制未来奖励对当前决策的影响权重；表示对经验样本的期望计算；

29、更新演员网络的参数，通过以下目标函数最大化策略性能：

30、

31、其中，表示演员网络生成的当前状态下的动作的概率分布；为评论家网络对当前状态和动作的价值评估；为权衡熵的系数，用于平衡探索与利用；表示从经验回放池中采样的训练数据集；

32、使用软更新方法更新目标评论家网络的参数；

33、重复上述步骤，利用经验池数据持续优化软演员-评论家算法模型，更新决策策略。

34、优选的，所述基于优化后的策略，动态调整运载火箭软件系统的运行状态的步骤包括：

35、利用优化后的软演员-评论家算法模型生成当前状态下的最优动作，所述动作包括任务调度、软件模块控制和异常处理；

36、根据生成的动作，执行以下动态调整：

37、动态调整任务的执行优先级和调度顺序；

38、动态调整软件模块的启停状态；

39、动态调整软件模块的配置参数，包括配置文件的日期和大小；

40、动态调整系统资源的分配，包括优化cpu利用率、内存使用率和线程分配；

41、针对检测到的系统异常，执行异常恢复动作，包括资源重新分配、任务重新执行及软件模块重启操作；

42、在运行状态调整完成后，重新采集系统状态，并将执行结果存储到经验池中，用于进一步优化软演员-评论家算法模型的决策策略。

43、优选的，所述动态调整任务的执行优先级和调度顺序的步骤包括：

44、根据任务的不同特性和当前系统状态，通过奖励函数计算各任务的优先级，所述奖励函数包括以下因素：

45、任务执行的完成度，未完成任务的优先级将提升；

46、任务的紧急程度，根据任务接近截止时间的程度赋予不同权重；

47、任务的重要性，对于影响系统整体功能或发射任务成功的关键任务赋予更高权重；

48、任务对系统资源使用的影响，根据当前可用资源分配的压力动态调整优先级；

49、系统异常处理任务的重要性，针对系统崩溃、资源超载等异常问题赋予高优先级；

50、结合优先级计算结果，按照高优先级任务优先完成的原则，对任务执行顺序进行动态调整。

51、优选的，所述软演员-评论家算法模型的训练过程包括以下步骤：

52、（1）初始化评论家网络、目标网络、以及演员网络的参数；

53、（2）系统从当前火箭软件管理系统中收集状态；

54、（3）通过演员网络生成动作，并执行该动作；

55、（4）动作执行后，系统获取新的状态和奖励；

56、（5）将状态、动作、奖励以及新的状态存储在经验回放池中；

57、（6）从经验回放池中随机采样训练数据，利用以下步骤更新网络参数：

58、通过评论家网络计算当前状态和动作的价值；

59、更新评论家网络的参数以最小化价值估计误差；

60、更新演员网络本文档来自技高网...

【技术保护点】

1.一种基于SAC的运载火箭软件控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述获取运载火箭软件系统的状态信息的步骤包括：

3.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述基于软演员-评论家算法模型，生成对应状态信息的最优动作的步骤包括：

4.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述反馈信息包括：

5.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述利用反馈信息优化软演员-评论家算法模型，持续更新决策策略的步骤包括：

6.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述基于优化后的策略，动态调整运载火箭软件系统的运行状态的步骤包括：

7.根据权利要求6所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述动态调整任务的执行优先级和调度顺序的步骤包括：

8.根据权利要求1所述的一种基于SAC的运载火箭软件控制方法

9.根据权利要求8所述的一种基于SAC的运载火箭软件控制方法，其特征在于，所述软演员-评论家算法模型训练过程的训练数据集的获取过程包括以下步骤：

10.一种基于SAC的运载火箭软件决策装置，应用于如权利要求1-9任一项所述的方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于sac的运载火箭软件控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于sac的运载火箭软件控制方法，其特征在于，所述获取运载火箭软件系统的状态信息的步骤包括：

3.根据权利要求1所述的一种基于sac的运载火箭软件控制方法，其特征在于，所述基于软演员-评论家算法模型，生成对应状态信息的最优动作的步骤包括：

4.根据权利要求1所述的一种基于sac的运载火箭软件控制方法，其特征在于，所述反馈信息包括：

5.根据权利要求1所述的一种基于sac的运载火箭软件控制方法，其特征在于，所述利用反馈信息优化软演员-评论家算法模型，持续更新决策策略的步骤包括：

6.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：周良，布向伟，彭昊旻，赵也倪，
申请(专利权)人：东方空间技术山东有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人