基于多智能体强化学习的卫星空间目标协同观测分布式规划方法技术

技术编号:37707096 阅读:11 留言:0更新日期:2023-06-01 23:56
一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法,包括:构建星上Actor网络以及地面集中式Critic网络形成集中式训练分布式执行架构;设计结构化混合空间动作,通过大量地面仿真并使用改进的MAHPPO算法与课程学习技术对上述Actor

【技术实现步骤摘要】
基于多智能体强化学习的卫星空间目标协同观测分布式规划方法


[0001]本专利技术属于分布式卫星系统协同观测规划
,具体涉及一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法。

技术介绍

[0002]随着航天技术的发展和天基应用业务需求的不断提升,空间碎片、卫星显著增多,对空间目标观测的重要性显著提高。由于在轨卫星数量多分布广,需要由卫星星座构成的观测系统才能在尽可能短的时间内实现对待观测目标的遍历。同时,由于空间目标材质、距离等特性,重要空间目标往往需要多颗卫星的协同观测才能完成对其的高精度监测与识别并且获取其详细的特征信息。
[0003]针对空间目标的协同观测任务规划,主要有集中式与分布式两类方案。
[0004]传统的管控模式为地面集中式,需先由地面生成观测规划,再将观测规划上传至各卫星,该方法难以应对突发应急情况和运行环境的变化,并受到测控时间窗口的约束。
[0005]星上集中式决策需要作为管理节点的卫星,管理节点将规划结果发送至各卫星,对管理节点的通信能力、计算能力与可靠性有非常高的需求。
[0006]星上分布式决策由每个卫星根据自身运行状态与待观测目标列表独立进行决策,具有可靠性高、灵活性强、反应迅速等优点。传统的星上分布式决策需要卫星之间进行通信以协调观测计划,对星间通信链路的要求较高。
[0007]专利文献公开号CN113128828,公开了一种基于多智能体强化学习的卫星观测分布式在线规划方法,使用星上决策模型对是否接受当前输入的观测任务进行决策。但是该方法决策内容简单,无法应对同时存在大量观测目标的复杂场景。

技术实现思路

[0008]为了解决上述问题,本专利技术提出一种基于多智能体强化学习的卫星规划方法。由于在多智能体系统中,每个智能体的行为都会对环境造成影响,因此每个智能体的决策也受其他智能体行为的影响。智能体之间需要协调一致地学习好的策略,特别是在智能体之间无法通信的情况下。因此,在多智能体强化学习中,采用集中式训练分布式执行架构,使各智能体在训练过程中学习出协调策略,从而消除多智能体在执行过程中对通信的依赖。不仅克服了传统分布式卫星系统协同观测对于卫星之间通信能力的依赖,同时克服了传统基于多智能体强化学习的卫星观测分布式规划方法决策内容简单的问题。
[0009]本专利技术的技术解决方案是:
[0010]一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法,包括基于多智能体深度强化学习的集中式训练分布式执行架构,构建星上Actor网络以及地面集中式Critic网络;针对空间目标协同观测问题设计结构化混合空间动作,Actor网络的局部观测与Critic网络的全局观测,以及协同观测奖励函数;通过大量的地面仿真并使用改进的
MAHPPO算法与课程学习技术对上述Actor

Critic网络进行集中式训练;将训练完成的Actor网络部署于执行协同观测任务星座的各个卫星上实现分布式执行;通过星地通信将待观测空间目标列表上传到各个卫星后,各卫星无需与其他卫星进行通信,各卫星分别执行星上Actor网络决策每个时间片的观测目标,并控制卫星实施观测任务,实现空间目标协同观测任务。
[0011]基于多智能体深度强化学习的集中式训练分布式执行架构包括若干共享参数Actor网络以及一个集中式Critic网络,两种网络均由若干循环神经网络层与全连接层构成。Actor网络即策略网络,以各卫星局部观测信息为输入,各卫星当前时间片转台指向为输出;Critic网络为评估网络,以全局观测信息为输入,各卫星在当前时间片决策的质量为输出。
[0012]结构化混合空间动作将对观测目标的决策转化为对转台指向的决策。混合空间指将转台指向的取值范围等分为若干区间,选定区间后,进一步在该区间内选择具体指向角度,从而构建出离散+连续的混合空间。由于转台在俯仰和方位两个轴上可动,结构化动作指将上述两个轴上的决策关联起来,使得选择的转台指向区间组合所表示的天球区域中必然有待观测目标列表中的目标。
[0013]局部观测即各卫星仅通过星地通信与自身计算可知的信息,包括各个待观测目标的位置信息与卫星自身的状态信息。全局观测即所有卫星局部观测信息的综合,包括各个待观测目标的位置信息与所有卫星的状态信息以及观测任务完成信息。
[0014]协同观测奖励函数由低优先级目标分别遍历与高优先级目标共同观测两个方面组成。其中低优先级目标奖励只在该星座首次完成该低优先级目标的观测时获得;高优先级目标奖励在大于等于两颗卫星同时观测该高优先级目标时获得,且共同观测的时间越长、参与观测的卫星数量越多,奖励越高。
[0015]MAHPPO算法适用于集中式训练多智能体混合动作空间的Actor与Critic网络,对其进行改进后能够适配结构化动作。通过大量的地面仿真训练直至全局总奖励收敛。使用课程学习技术,将小型星座训练完成的模型作为预训练模型直接对更大型的星座的网络进行训练。
[0016]分布式执行时,无需Critic网络,只需在各卫星上部署Actor网络,各卫星将局部观测信息输入各自的Actor网络即可得到其观测规划,各自调动转台执行观测任务即实现协同观测。
[0017]本专利技术与现有技术相比的有益效果是:
[0018](1)采用基于集中式训练分布式执行的多智能体强化学习架构求解卫星空间目标协同观测分布式规划问题,使得在轨执行过程中各卫星之间无需通信即可完成协同观测;并且由于星上Actor网络推理时的时空复杂度低,具有在轨部署的可行性,有利于增强卫星的自主性和智能性;课程学习技术有利于将该方法扩展到大规模星座的应用;
[0019](2)针对空间目标协同观测问题设计结构化混合空间动作,通过决策当前时间片各卫星转台指向表示当前时间片各卫星观测目标,使得面对不同待观测空间目标列表时动作的含义均保持一致,有利于决策效果的稳定;并且不同于传统基于多智能体强化学习的方法仅决策是否接受当前任务,该方法可大大增加决策的灵活度,提升规划的效果;同时结构化与混合空间大大降低了每一次决策可选动作的空间,有利于提升训练的效率以及规划
的效果。
附图说明
[0020]图1结构化混合空间动作示意图;
[0021]图2空间目标协同观测分布式规划策略的集中式训练架构示意图;
[0022]图3空间目标协同观测分布式规划策略的分布式执行架构示意图;
[0023]图4结构化动作生成示意图;
[0024]图5神经网络的结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本专利技术进一步说明,但不应以此限制本专利技术的保护范围。
[0026]1.空间目标协同观测分布式规划问题建模
[0027]1.1规划问题的定义
[0028]给定一个具有N颗观测卫星的观测网络S={s1,s2,

,s
N
},一个具有M个待观测目标的集合J={J1,J2,
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的卫星空间目标协同观测分布式规划方法,其特征在于,该方法包括:步骤1)为卫星空间目标协同观测网络中每个卫星构建星上Actor网络以及地面集中式Critic网络形成集中式训练分布式执行架构;步骤2)设计结构化混合空间动作,包括Actor网络的局部观测与Critic网络的全局观测,以及协同观测奖励函数;步骤3)通过大量地面仿真并使用改进的MAHPPO算法与课程学习技术对上述Actor

Critic网络进行集中式训练;步骤4)将训练完成的Actor网络部署于执行协同观测任务星座的各个卫星上实现分布式执行;步骤5)通过星地通信将待观测空间目标列表上传到各个卫星后,各卫星无需与其他卫星进行通信,各卫星分别执行星上Actor网络决策每个时间片的观测目标,并控制卫星实施观测任务,实现空间目标协同观测任务。2.根据权利要求1所述的基于多智能体强化学习的卫星空间目标协同观测分布式规划方法,其特征在于,所述的集中式训练分布式执行架构,包括若干共享参数Actor网络以及一个集中式Critic网络,两种网络均由若干循环神经网络层与全连接层构成;所述的Actor网络即策略网络,以各卫星局部观测信息为输入,各卫星当前时间片转台指向为输出;所述的Critic网络为评估网络,以全局观测信息为输入,各卫星在当前时间片决策的质量为输出。3.根据权利要求1所述的基于多智能体强化学习的卫星空间目标协同观测分布式规划方法,其特征在于,所述的结构化混合空间动作将对观测目标的决策转化为对转台指向的决策,所述的混合空间指将转台指向的取值范围等分为若干区间,选定区间后,进一步在该区间内选择具体指向角度,从而构建出离散+连续的混合空间;所述的结构化动作指将转台在俯仰和方位两个轴上的决策关联起来,使得选择的转台指向区间组合所表示的天球区域中必然有待观测目标列表中的目标;所述的局部观测即各卫星仅通过星地通信与自身计算可知的信息,包括各个待观测目标的位置信息与卫星自身的状态信息;所述的全局观测即所有卫星局部观测信息的综合,包括各个待观测目标的位置信息与所有卫星的状态信息以及观测任务完成信息;所述的协同观测奖励函数由低优先级目标分别遍历与高优先级目标共同观测两个方面组成,其中低优先级目标奖励在该星座首次完成该低优先级目标的观测时获得;高优先级目标奖励在大于等于两颗卫星同时观测该高优先级目标时获得,且共同观测的时间越长、参与观测的卫星数量越多,奖励越高;所述的改进的...

【专利技术属性】
技术研发人员:李路施琦宋佳凯陈雯贺俊旺姬聪云
申请(专利权)人:上海微小卫星工程中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1