当前位置: 首页 > 专利查询>天津大学专利>正文

基于内在动机的多智能体稀疏奖励环境协作探索方法技术

技术编号:32641146 阅读:57 留言:0更新日期:2022-03-12 18:17
本发明专利技术公开了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,步骤1、初始化目标策略和探索策略;步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;步骤3、进行势能影响的分配;步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。与现有技术相比,本发明专利技术对稀疏奖励环境下智能体的探索效率有较高的提升,可以与多种强化学习算法进行结合。行结合。行结合。

【技术实现步骤摘要】
基于内在动机的多智能体稀疏奖励环境协作探索方法


[0001]本专利技术涉及多智能体深度强化学习领域,特别涉及一种奖励稀疏环境下多智能体协作探索方法。

技术介绍

[0002]本专利技术相关现有技术包括:
[0003]一、分布式部分可观测马尔科夫决策过程(Dec

POMDP),定义如下式所示:
[0004]<S,U,P,r,O,Z,n,γ>
[0005]其中,n表示智能体数量,S为状态集合,U为智能体的联合动作。
[0006]二、COMA(Counterfactual Multi

Agent Policy Gradients)是针对多智能体强化学习信度分配问题所提出来的一种算法。信度分配问题是多智能体合作任务中广泛存在的问题之一,问题难点在于当智能体共享一个全局奖赏时如何区分每个智能体对全局奖赏的贡献程度。COMA对每个智能体a计算一个优势函数:
[0007][0008]此优势函数能够反映智能体当前的动作选择相较于未选择动作的好坏,用此优势函数对智能体策略进行更新能够解决由信度分配问题导致多智能体算法不能取得良好结果的问题。
[0009]目前,在奖励稀疏环境中探索的方法受限于一些特殊的设定,如智能体之间的行为具有强相关性,任务的完成只与环境中的部分元素相关,如何适应更广泛的奖励稀疏环境中的探索仍然是一个开放问题。

技术实现思路

[0010]本专利技术旨在解决奖励稀疏环境下多智能体协作探索的问题,提出了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,基于人工势场实现了奖励稀疏环境下的多智能体协作探索。
[0011]本专利技术利用以下技术方案实现:
[0012]一种基于内在动机的多智能体稀疏奖励环境协作探索方法,具体包括以下步骤:
[0013]步骤1、初始化目标策略该策略用于学习完成目标任务,同时初始化探索策略该策略用于在环境中进行充分探索;其中,π表示智能体的当前策略,n为智能体数量;
[0014]步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;
[0015]步骤3、势能影响分配,具体处理如下:
[0016]利用反事实基线方法,用如下公式计算得到智能体a的优势函数,如下式所示:
[0017][0018]其中,u
a
表示智能体a的动作,u

a
表示其他智能体的联合动作,π表示智能体a的当前策略,A
a
表示智能体a在当前策略π下,采取动作u
a
相比于采取其他动作对受势能影响的大小,A
a
越大,表示智能体a的当前动作u
a
和其他动作相比受势能影响程度越大,反之亦然。接着对每个智能体i都计算其对应的A
i
,并通过softmax操作得到智能体内在受势能影响的占比:
[0019][0020]设智能体i每个决策步t的奖励为如下式所示:
[0021][0022]步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。
[0023]与现有技术相比,本专利技术对稀疏奖励环境下智能体的探索效率有较高的提升,可以与多种强化学习算法进行结合;使用的先验信息较少,可以适用于多数奖励稀疏的探索环境。
附图说明
[0024]图1为本专利技术的一种基于内在动机的多智能体稀疏奖励环境协作探索方法整体流程图;
[0025]图2为本专利技术的算法架构图;
[0026]图3为本专利技术的应用场景示例。
具体实施方式
[0027]以下结合附图和具体实施例对本专利技术的技术方案进行详细说明。
[0028]如图1所示,为本专利技术的一种基于内在动机的多智能体稀疏奖励环境协作探索方法,如图2所示,为本专利技术的算法架构图。该方法具体包括以下步骤:
[0029]步骤1、初始化目标策略和探索策略:
[0030]初始化目标策略该策略用于学习完成目标任务,同时初始化探索策略该策略用于在环境中进行充分探索;其中,π表示智能体的当前策略,n为智能体数量;
[0031]步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;例如在机器人路径规划领域,通常把构型空间比作一个有起伏地形的区域,其中,起点和障碍物点位于较高的区域,终点位于较低的区域,机器人视作一个球体,那么机器人会在重力的作用下沿着某条轨迹从较高的起点滑落到较低的终点并避
开较低的障碍物。本步骤具体包括以下处理:
[0032]步骤2.1、进行探索充分性度量,具体处理如下:
[0033]将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程(Dec

POMDP),如下式所示:
[0034]<S,U,P,r,O,Z,n,γ>
[0035]其中,S为智能体的全局状态集合,U为智能体的联合动作集合,P为转移函数,r为全局奖励函数,O为智能体的局部观测集合,Z为初始全局状态分布,n为智能体数量,γ为强化学习中的奖赏折扣因子
[0036]在时间步t中,存在智能体的联合状态S
t
,各智能体选择一个动作执行,获得一个全局奖励r,并依照转移函数P转移到下一个联合状态S
t+1
。集中式训练和分布式执行的训练范式下,在每个时间步t中的每个智能体i根据自身观测函数o
i
选择一个动作u
i
,组成联合动作u
t
,与环境进行交互,并根据环境状态转移函数P(s
t+1
|s
t
,u
t
)转移到下一个联合状态s
t+1
,同时获得环境反馈r
t
(s,u)。Count

based(基于计数)的探索算法是一种最简单的通过设计内在奖赏进行探索的算法,用计数器Counter C(S
t
,u
t
)表示在整个训练过程中多智能体系统在联合状态为S
t
下采取联合动作为u
t
的次数;
[0037]步骤2.2、距离测算网络训练
[0038]在多智能体环境中,因为涉及多个智能体的位置,因而通过一个距离测算网络来衡量两个状态之间的距离。距离测算网络输入为全局状态S
t
和联合动作u
t
,输出为一个值,用于衡量两个状态之间的距离;
[0039]距离测算公式如下:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内在动机的多智能体稀疏奖励环境协作探索方法,其特征在于,该方法具体包括以下步骤:步骤1、初始化目标策略该策略用于学习完成目标任务;同时初始化探索策略该策略用于在环境中进行充分探索;其中,π表示智能体的当前策略,n为智能体数量;步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;步骤3、进行势能影响的分配,具体处理如下:利用反事实基线方法,用如下公式计算得到智能体a的优势函数,如下式所示:其中,u
a
为智能体a的动作,u

a
为其他智能体的联合动作,π表示智能体a的当前策略,A
a
表示智能体a在当前策略π下,采取动作u
a
相比于采取其他动作对受势能影响的大小,A
a
越大,表示智能体a的当前动作u
a
和其他动作相比受势能影响程度越大,反之亦然。接着对每个智能体i都计算其对应的A
i
,并通过softmax操作得到智能体内在受势能影响的占比:设智能体i每个时间步t的奖励为如下式所示:步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。2.如权利要求1所述的基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,所述步骤2进一步包括以下处理:步骤2.1、进行探索充分性度量,具体处理如下:将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程...

【专利技术属性】
技术研发人员:谢京达郝建业郑岩马亿杨天培
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1