基于多智能体近端策略优化算法的深空探测器任务规划方法技术

技术编号：39572492 阅读：7 留言：0更新日期：2023-12-03 19:24

本发明专利技术公开了一种基于多智能体近端策略优化算法的深空探测器任务规划方法，包括：将多智能体规划问题建模为多智能体马尔科夫决策过程；依据多智能体马尔科夫决策过程，构建深空探测器多智能体任务规划环境；构建深空探测器多智能体近端策略优化模型；训练深空探测器多智能体近端策略优化模型，得到多智能体任务规划最优策略；利用训练好的多智能体任务规划最优策略进行深空探测器任务规划

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体近端策略优化算法的深空探测器任务规划方法

[0001]本专利技术涉及一种基于多智能体近端策略优化算法的深空探测器任务规划方法，属于航空航天

。

技术介绍

[0002]深空探测领域是现今世界重要技术发展领域之一，深空探测由于其探测对象的可知特征不完备性和环境的复杂性，使得附着任务难度很大，为了顺利地完成科学探索任务，深空探测器在附着过程中，需要具备对各种任务进行规划的能力，根据各种外界环境
、
自身系统的状态以及各种约束条件，规划出一组可执行的动作序列
。
[0003]深空探测器多智能体自主协同任务规划问题是一个多约束
、
高冲突的复杂组合优化问题，即在满足任务约束
、
资源约束和时间约束的前提下，怎么安排一组动作序列及执行时间，使得任务收益最高，资源消耗最少，时间消耗最少等一个或多个目标函数达到最优
。
该问题一直备受各国学者的关注，并进行了多角度的探索和研究
。
[0004]高艾等在中国授权专利技术专利
CN114399225A
中公开了“一种基于
Q
‑
Learning
的深空探测器任务规划方法”，采用
Q
‑
Learning
方法对任务规划进行训练，但该方法没有实现多智能体的协作规划，而采用
MAPPO
算法进行多智能体深空探测器任务规划的方法尚未见记载
。

技术实现思路
r/>[0005]本专利技术提供了一种基于多智能体近端策略优化算法的深空探测器任务规划方法，以用于实现深空探测器任务规划
。
[0006]本专利技术的技术方案是：
[0007]根据本专利技术的一方面，提供了一种基于多智能体近端策略优化算法的深空探测器任务规划方法，包括：将多智能体规划问题建模为多智能体马尔科夫决策过程；依据多智能体马尔科夫决策过程，构建深空探测器多智能体任务规划环境；构建深空探测器多智能体近端策略优化模型；训练深空探测器多智能体近端策略优化模型，得到多智能体任务规划最优策略；利用训练好的多智能体任务规划最优策略进行深空探测器任务规划
。
[0008]所述将多智能体规划问题建模为多智能体马尔科夫决策过程，具体为：
[0009]将深空探测器中的各个子系统视作一个单独的智能体，深空探测器视作由多个智能体组成的集合；将多智能体规划问题
Pro
描述为：
[0010]Pro
＝
(I
，
G
，
K
，
A
seq
)
；
[0011]其中，
I
表示深空探测器任务的初始状态，
G
表示深空探测器任务的目标状态，
K
为深空探测器任务规划的知识域，包括子系统名称
、
子系统状态
、
动作
、
动作的前提约束
、
状态转移关系；
A
seq
表示任务规划的动作序列；
[0012]根据对多智能体规划问题的描述，将多智能体规划问题建模为多智能体马尔科夫决策过程
M
，包括：
[0013]M
＝
<N
，
S
，
A
，
P
，
R
，
γ
>
；
[0014]S
＝
S1×
S2×
...S
i
...
×
S
N
；
[0015][0016]A
＝
A1×
A2×
A
i
...
×
A
n
；
[0017][0018]P
＝
P(s
pq
|s
uv
，
a
ux
)
；
[0019]R
＝
r(s
uv
，
a
ux
)
；
[0020]γ
∈[0
，
1]；
[0021]其中，
N
表示深空探测器子系统的总数量；
S
表示深空探测器所有子系统状态的集合，
S
i
表示深空探测器第
i
个子系统可到达状态的集合，
s
ik
表示第
i
个子系统的第
k
个状态；
|S
i
|
表示集合
S
i
的元素个数；
A
表示深空探测器可执行动作集；
A
i
表示第
i
个子系统可执行动作集，其种类有
|A
i
|
种；
a
ih
表示第
i
个子系统的第
h
个可执行动作；
P
表示状态转移函数，
P(s
pq
|s
uv
，
a
ux
)
表示在状态
s
uv
下执行动作
a
ux
转移到状态
s
pq
的概率，
s
uv
表示第
u
个子系统的第
v
个状态，
a
ux
第
u
个子系统的第
x
个可执行动作；
R
表示奖励函数，
r(s
uv
，
a
ux
)
表示在状态
s
uv
下执行动作
a
ux
的即时奖励，
γ
表示折扣因子；
[0022]π
＝
{
π1，
π2，
...
，
π
i
，
...
，
π
N
}
；
[0023]π
i
＝
P(a
ux
|s
uv
)
；
[0024]其中，
π
表示深空探测器的联合策略，
π
i
表示第
i
个子系统的策略，策略
π
i
表示一种映射关系，
P(a
ux
|s
uv
)
表示在
s
uv本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于多智能体近端策略优化算法的深空探测器任务规划方法，其特征在于，包括：将多智能体规划问题建模为多智能体马尔科夫决策过程；依据多智能体马尔科夫决策过程，构建深空探测器多智能体任务规划环境；构建深空探测器多智能体近端策略优化模型；训练深空探测器多智能体近端策略优化模型，得到多智能体任务规划最优策略；利用训练好的多智能体任务规划最优策略进行深空探测器任务规划
。2.
根据权利要求1所述的基于多智能体近端策略优化算法的深空探测器任务规划方法，其特征在于，所述将多智能体规划问题建模为多智能体马尔科夫决策过程，具体为：将深空探测器中的各个子系统视作一个单独的智能体，深空探测器视作由多个智能体组成的集合；将多智能体规划问题
Pro
描述为：
Pro
＝
(I,G,K,A
seq
)
；其中，
I
表示深空探测器任务的初始状态，
G
表示深空探测器任务的目标状态，
K
为深空探测器任务规划的知识域，包括子系统名称
、
子系统状态
、
动作
、
动作的前提约束
、
状态转移关系；
A
seq
表示任务规划的动作序列；根据对多智能体规划问题的描述，将多智能体规划问题建模为多智能体马尔科夫决策过程
M
，包括：
M
＝
<N,S,A,P,R,
γ
>
；
S
＝
S1×
S2×
...S
i
...
×
S
N
；
A
＝
A1×
A2×
A
i
...
×
A
n
；
P
＝
P(s
pg
|s
uv
，
a
ux
)
；
R
＝
r(s
uv
，
a
ux
)
；
γ
∈[0,1]
；其中，
N
表示深空探测器子系统的总数量；
S
表示深空探测器所有子系统状态的集合，
S
i
表示深空探测器第
i
个子系统可到达状态的集合，
s
ik
表示第
i
个子系统的第
k
个状态；
|S
i
|
表示集合
S
i
的元素个数；
A
表示深空探测器可执行动作集；
A
i
表示第
i
个子系统可执行动作集，其种类有
|A
i
|
种；
a
ih
表示第
i
个子系统的第
h
个可执行动作；
P
表示状态转移函数，
P(s
pq
|s
uv
，
a
ux
)
表示在状态
s
uv
下执行动作
a
ux
转移到状态
s
pq
的概率，
s
uv
表示第
u
个子系统的第
v
个状态，
a
ux
第
u
个子系统的第
x
个可执行动作；
R
表示奖励函数，
r(s
uv
，
a
ux
)
表示在状态
s
uv
下执行动作
a
ux
的即时奖励，
γ
表示折扣因子；
π
...

【专利技术属性】
技术研发人员：王彬，孙泽翼，胡馨月，金怀平，杨彪，钱斌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人