【技术实现步骤摘要】
一种基于蒙特卡洛树探索的多智能体决策方法
[0001]本专利技术属于任务规划
,尤其涉及一种基于蒙特卡洛树探索的多智能体决策方法。
技术介绍
[0002]随着科技与工业的发展,机器人在人类的生产与生活中扮演着愈发重要的职责。人工智能的一个重要目标就是建立起拥有自主决策与行为能力的智能体。目前已有多种服务型机器人应用于实际生活中,如扫地机器人等。尽管单个智能体可以满足很多场景需求,但是仍有大量任务需要多个智能体协作完成,如机器人足球比赛、机器人分拣快递等。这些任务需要多智能体分别协调各自的行动,以达成特定目标。同时,在任务执行过程中,由于传感器性能导致的感知不确定性和由于控制的不稳定导致行动结果的不确定性都是一些重要的特征。
[0003]分布式部分观测马尔可夫决策过程(Dec
‑
POMDP)是用来描述不确定环境下多智能体序列决策任务的常用模型。Dec
‑
POMDP为多智能体决策方法提供了很好的数学框架。然而,每个智能体需要依据自己的局部信息生成全局最优的策略,同时还要考虑其他智 ...
【技术保护点】
【技术特征摘要】
1.一种基于蒙特卡洛树探索的多智能体决策方法,其特征在于,包括如下步骤:S1:基于分布式部分观测马尔可夫决策过程对决策任务进行建模;S2:基于模型初始化蒙特卡洛树;S3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;S4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3
‑
S4,直至任务完成。2.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S1中,将多智能体决策任务建模为Dec
‑
POMDP模型,所述模型定义为一个元祖<I,S,A,T,Z,O,R>其中,I={1,
…
,n}为有限智能体的结合;n为智能体的数量;S={s1,
…
,s
n
}为智能体有限状态的集合;Z={z1,
…
,z
n
}为智能体有限观测的集合;A={a1,
…
,a
n
}为智能体的联合动作;T为状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率;O为观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率;R为奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。3.根据权利要求2所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S2中,根据Dec
‑
POMDP模型,对每一个智能体建立独立的蒙特卡洛树,生成根节点,其中,H
t
={A0,Z1,
…
,A
t
‑1,Z
t
}为智能体集群所经历的历史动作-观测序列;代表智能体i所经历的历史动作-观测序列;代表节点,j表示节点的序号;Q代表节点的价值,初始值为0;树内分为观测节点与动作节点。4.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S3中,在有限的时间内于每个智能体的树内同步进行采样,并完成探索,具体为:基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec
‑
POM...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。