【技术实现步骤摘要】
本专利技术涉及航天器控制,具体涉及一种多航天器合作博弈的控制方法、装置、设备及介质。
技术介绍
1、随着近期卫星编队和集群技术的发展,多航天器合作控制技术愈发受到重视,多星集群控制和运用可显著增强空间监视、接近和操控能量。在轨道博弈的背景下,利用多航天器参与博弈亦可通过数量优势来提升整体能力,如在机动能力弱势的情况下合作捕获一个机动能力更强的目标,或在机动能力处强势的情况下以更短时间或者更高的成功率合作抓捕目标。但多航天器博弈的合作控制中既包含合作关系、又涉及对抗关系,采用传统微分对策方法完成各航天器间目标函数的关联性、信息的互通性、合作的约束性等内容的建模和设计较为困难、求解效率也较低。人工智能方法无需求解复杂的数学方程,仅通过数据的采集和训练,便可使智能体具有学习进步的能力,灵活性强。但现有人工智能方法应用于多航天器合作轨道博弈时还存在轨道动力学环境适应性不强、策略运用效率不高、训练效果不好等问题。
技术实现思路
1、本专利技术主要解决的技术问题是面对多航天器轨道博弈问题时,采用人工智
...【技术保护点】
1.一种多航天器合作博弈的控制方法,其特征在于,包括:
2.如权利要求1所述的控制方法,其特征在于,根据从更新后的所述追踪器经验池中采集到的多条追踪经验数据和所述局部观测量计算出所述待训练追踪器智能体群组对应的梯度,包括:
3.如权利要求1所述的控制方法,其特征在于,所述马尔科夫博弈模型的奖励函数包括过程奖励函数和终端奖励函数;
4.如权利要求1所述的控制方法,其特征在于,根据所述追踪器学习者中多个追踪方的价值神经网络的参数和策略神经网络的参数、以及所述逃逸器学习者中逃逸方的价值神经网络的参数和策略神经网络的参数构建主网络;其中,所
...【技术特征摘要】
1.一种多航天器合作博弈的控制方法,其特征在于,包括:
2.如权利要求1所述的控制方法,其特征在于,根据从更新后的所述追踪器经验池中采集到的多条追踪经验数据和所述局部观测量计算出所述待训练追踪器智能体群组对应的梯度,包括:
3.如权利要求1所述的控制方法,其特征在于,所述马尔科夫博弈模型的奖励函数包括过程奖励函数和终端奖励函数;
4.如权利要求1所述的控制方法,其特征在于,根据所述追踪器学习者中多个追踪方的价值神经网络的参数和策略神经网络的参数、以及所述逃逸器学习者中逃逸方的价值神经网络的参数和策略神经网络的参数构建主网络;其中,所述主网络包括追踪方的主价值网络和主策略网络,以及逃逸方的主价值网络和主策略网络;
5.如权利...
【专利技术属性】
技术研发人员:李振瑜,陈思,范翔,
申请(专利权)人:中国人民解放军六三九二一部队,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。