一种融合后见之明思想的群体智能学习方法技术

技术编号:36536871 阅读:17 留言:0更新日期:2023-02-01 16:23
本发明专利技术公开了一种融合后见之明思想的群体智能学习方法,包括如下步骤:步骤1,使用多智能体强化学习算法生成标准经验:步骤2,从标准经验中采样伪目标,构造伪目标集合:步骤3,依据伪目标,使用后见之明单元生成伪经验:步骤4,智能体结合标准经验和伪经验更新智能体策略—评判网络。本发明专利技术针对复杂环境下智能体探索时存在大量失败经验的问题进行了定制化设计,较好的解决了智能体仅能依据失败经验进行学习的问题,能有效提升算法的采样效率和学习效果。习效果。习效果。

【技术实现步骤摘要】
一种融合后见之明思想的群体智能学习方法


[0001]本专利技术属于多智能体深度强化学习领域,特别涉及该领域中的一种融合后见之明思想的通用有效群体智能学习方法。

技术介绍

[0002]随着科学技术的不断进步,强化学习和深度学习相结合,形成了深度强化学习领域,其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。尽管深度强化学习在多智能体系统的应用方面已经取得了一些成果,但是仍然存在一些挑战,其中一点是经验回放区中大多为失败经验。多智能体场景的状态动作空间随着智能体数量的增长呈指数型增长,在如此大的空间中进行试错,智能体很难得到成功的经验。这就导致智能体只能使用失败经验进行学习,几乎不能得到效果好的策略。另一个问题是经验只能通过与环境交互得到,导致采样效率较低。因此,强化学习研究的一个重要方向是采用更有效率的采样方法并得到质量更高的经验。
[0003]目前已有通过经验回放技术提高采样效率并提升经验质量的做法,DQN(Deep Q

Network)首次将经验回放的概念引入深度强化学习中,利用它存储每一步产生的经验以便后续更新使用,一定程度上解决了采样效率低的问题。PER(Prioritized Experience Replay)对经验回放进行了改进,开发出一个优先考虑经验的框架,以便更频繁地回放重要的经验,进行更有效地学习。DER(Dynamic Experience Replay)使强化学习算法不仅可以使用人类演示中的经验回放样本,还可以使用智能体在训练过程中成功进行的状态转换经验,从而提高训练效率。

技术实现思路

[0004]本专利技术所要解决的技术问题就是提供一种融合后见之明思想的群体智能学习方法,将后见之明思想引入流行的多智能体强化学习算法MADDPG(Multi

Agent Deep Deterministic Policy Gradient)中,令智能体拥有在已有经验的基础上反思的能力,从而得到新的更倾向于成功的伪经验,以此扩充经验回放区,改善算法的效果。
[0005]本专利技术采用如下技术方案:
[0006]一种融合后见之明思想的群体智能学习方法,其改进之处在于,包括如下步骤:
[0007]步骤1,使用多智能体强化学习算法生成标准经验:
[0008]环境中的每个智能体都有自己的策略一评判网络,策略网络输入智能体自身的状态s=o||g,其中,o是智能体的局部观测值,g是本回合的目标,o和g采用直接连接的方式构成状态,策略网络的输出是动作a;
[0009]智能体依据策略网络选择出的动作与环境交互,得到一条标准经验(z,(a1,

,a
N
),(r1,

,r
N
),z

),其中,N表示环境中的智能体数量,z=(o1||g,o2||g,

,o
N
||g),代表所有智能体的状态,z

代表所有智能体转移到的下一状态,a
n
是第n个智能体选择执行的动作,r
n
是第n个智能体动作后得到的即时奖励,1≤n≤N,计算方法为:
[0010]r
n
=R(o
n

,g,a
n
)
[0011]其中,R为奖励函数,o
n

为第n个智能体转移到的下一局部观测值,得到的标准经验存入经验回放区D;
[0012]步骤2,从标准经验中采样伪目标,构造伪目标集合:
[0013]将z

作为新的状态输入策略网络,策略网络选择新的动作,重复T步完成一回合的交互,T为正整数,得到一条状态转移轨迹(z1,z2,

,z
T
),对于第t步得到的标准经验(z
t
,(a
t1
,a
t2


,a
tN
),(r
t1
,r
t2


,r
tN
),z
t+1
),1≤t≤T,从状态转移轨迹(z
t+1
,z
t+2


,z
T
)中随机选择K个状态,K为正整数,将所选状态中的观测值(o1,o2,

,o
K
)作为伪目标(g1,g2,

,g
K
),构成伪目标集合G;
[0014]步骤3,依据伪目标,使用后见之明单元生成伪经验:
[0015]用每个g
k
∈G替换标准经验中z
t
和z
t+1
的目标部分,1≤k≤K,得到新的当前状态z
tk
=(o
t1
||g
k
,o
t2
||g
k


,o
tN
||g
k
)和新的下一状态z
(t+1)k
=(o
(t+1)1
||g
k
,o
(t+1)2
||g
k


,o
(t+1)N
||g
k
),使用与标准经验相同的奖励函数,依据伪目标重新计算奖励,具体计算方法是:
[0016]r
tn
=R(o
(t+1)n
,g
k
,a
tn
)
[0017]用计算得到的新的当前状态、新的下一状态和奖励组成伪经验(z
k
,(a1,a2,

,a
N
),(r
k1
,r
k2


,r
kN
),z
k

),其中z
k
=(o1||g
k
,o2||g
k


,o
N
||g
k
),伪经验也存入经验回放区D,供智能体网络更新使用;
[0018]步骤4,智能体结合标准经验和伪经验更新智能体策略

评判网络:
[0019]对于策略网络,智能体i的收益期望的梯度是:
[0020][0021]其中,E是求期望,θ
i
表示智能体i的网络的参数,是智能体i的动作值函数,通过所有智能体的状态和动作得到智能体i的奖励值,μ是所有智能体策略的集合;
[0022]对于评判网络,更新方法为:
[0023][0024]其中,是损失函数,μ

是目标网络所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合后见之明思想的群体智能学习方法,其特征在于,包括如下步骤:步骤1,使用多智能体强化学习算法生成标准经验:环境中的每个智能体都有自己的策略—评判网络,策略网络输入智能体自身的状态s=o||g,其中,o是智能体的局部观测值,g是本回合的目标,o和g采用直接连接的方式构成状态,策略网络的输出是动作a;智能体依据策略网络选择出的动作与环境交互,得到一条标准经验(z,(a1,

,a
N
),(r1,

,r
N
),z

),其中,N表示环境中的智能体数量,z=(o1||g,o2||g,

,o
N
||g),代表所有智能体的状态,z

代表所有智能体转移到的下一状态,a
n
是第n个智能体选择执行的动作,r
n
是第n个智能体动作后得到的即时奖励,1≤n≤N,计算方法为:r
n
=R(o
n

,g,a
n
)其中,R为奖励函数,o
n

为第n个智能体转移到的下一局部观测值,得到的标准经验存入经验回放区D;步骤2,从标准经验中采样伪目标,构造伪目标集合:将z

作为新的状态输入策略网络,策略网络选择新的动作,重复T步完成一回合的交互,T为正整数,得到一条状态转移轨迹(z1,z2,

,z
T
),对于第t步得到的标准经验(z
t
,(a
t1
,a
t2


,a
tN
),(r
t1
,r
t2


,r
tN
),z
t+1
),1≤t≤T,从状态转移轨迹(z
t+1
,z
t+2


,z
T
)中随机选择K个状态,K为正整数,将所选状态中的观测值(o1,o2,

,o
K
)作为伪目标(g1,g2,

,g...

【专利技术属性】
技术研发人员:程尧赵军王莉李承璟张祎琳左伟庆冯阳郭琛
申请(专利权)人:中国电波传播研究所中国电子科技集团公司第二十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利