基于多智能体强化学习的卫星空间目标协同观测分布式规划方法技术

技术编号：37707096 阅读：11 留言：0更新日期：2023-06-01 23:56

一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法，包括：构建星上Actor网络以及地面集中式Critic网络形成集中式训练分布式执行架构；设计结构化混合空间动作，通过大量地面仿真并使用改进的MAHPPO算法与课程学习技术对上述Actor

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的卫星空间目标协同观测分布式规划方法

[0001]本专利技术属于分布式卫星系统协同观测规划
，具体涉及一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法。

技术介绍

[0002]随着航天技术的发展和天基应用业务需求的不断提升，空间碎片、卫星显著增多，对空间目标观测的重要性显著提高。由于在轨卫星数量多分布广，需要由卫星星座构成的观测系统才能在尽可能短的时间内实现对待观测目标的遍历。同时，由于空间目标材质、距离等特性，重要空间目标往往需要多颗卫星的协同观测才能完成对其的高精度监测与识别并且获取其详细的特征信息。
[0003]针对空间目标的协同观测任务规划，主要有集中式与分布式两类方案。
[0004]传统的管控模式为地面集中式，需先由地面生成观测规划，再将观测规划上传至各卫星，该方法难以应对突发应急情况和运行环境的变化，并受到测控时间窗口的约束。
[0005]星上集中式决策需要作为管理节点的卫星，管理节点将规划结果发送至各卫星，对管理节点的通信能力、计算能力与可靠性有非常高的需求。
[0006]星上分布式决策由每个卫星根据自身运行状态与待观测目标列表独立进行决策，具有可靠性高、灵活性强、反应迅速等优点。传统的星上分布式决策需要卫星之间进行通信以协调观测计划，对星间通信链路的要求较高。
[0007]专利文献公开号CN113128828，公开了一种基于多智能体强化学习的卫星观测分布式在线规划方法，使用星上决策模型对是否接受当前输入的观测任务进行决策。但...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法，其特征在于，该方法包括：步骤1)为卫星空间目标协同观测网络中每个卫星构建星上Actor网络以及地面集中式Critic网络形成集中式训练分布式执行架构；步骤2)设计结构化混合空间动作，包括Actor网络的局部观测与Critic网络的全局观测，以及协同观测奖励函数；步骤3)通过大量地面仿真并使用改进的MAHPPO算法与课程学习技术对上述Actor
‑
Critic网络进行集中式训练；步骤4)将训练完成的Actor网络部署于执行协同观测任务星座的各个卫星上实现分布式执行；步骤5)通过星地通信将待观测空间目标列表上传到各个卫星后，各卫星无需与其他卫星进行通信，各卫星分别执行星上Actor网络决策每个时间片的观测目标，并控制卫星实施观测任务，实现空间目标协同观测任务。2.根据权利要求1所述的基于多智能体强化学习的卫星空间目标协同观测分布式规划方法，其特征在于，所述的集中式训练分布式执行架构，包括若干共享参数Actor网络以及一个集中式Critic网络，两种网络均由若干循环神经网络层与全连接层构成；所述的Actor网络即策略网络，以各卫星局部观测信息为输入，各卫星当前时间片转台指向为输出；所述的Critic网络为评估网络，以全局观测信息为输入，各卫星在当前时间片决策的质量为输出。3.根据权利要求1所述的基于多智能体强化学习的卫星空间目标协同观测分布式规划方法，其特征在于，所述的结构化混合空间动作将对观测目标的决策转化为对转台指向的决策，所述的混合空间指将转台指向的取值范围等分为若干区间，选定区间后，进一步在该区间内选择具体指向角度，从而构建出离散+连续的混合空间；所述的结构化动作指将转台在俯仰和方位两个轴上的决策关联起来，使得选择的转台指向区间组合所表示的天球区域中必然有待观测目标列表中的目标；所述的局部观测即各卫星仅通过星地通信与自身计算可知的信息，包括各个待观测目标的位置信息与卫星自身的状态信息；所述的全局观测即所有卫星局部观测信息的综合，包括各个待观测目标的位置信息与所有卫星的状态信息以及观测任务完成信息；所述的协同观测奖励函数由低优先级目标分别遍历与高优先级目标共同观测两个方面组成，其中低优先级目标奖励在该星座首次完成该低优先级目标的观测时获得；高优先级目标奖励在大于等于两颗卫星同时观测该高优先级目标时获得，且共同观测的时间越长、参与观测的卫星数量越多，奖励越高；所述的改进的...

【专利技术属性】
技术研发人员：李路，施琦，宋佳凯，陈雯，贺俊旺，姬聪云，
申请(专利权)人：上海微小卫星工程中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人