当前位置: 首页 > 专利查询>中国电波传播研究所中国电子科技集团公司专利>正文

一种融合后见之明思想的群体智能学习方法技术

技术编号：36536871 阅读：17 留言：0更新日期：2023-02-01 16:23

本发明专利技术公开了一种融合后见之明思想的群体智能学习方法，包括如下步骤：步骤1，使用多智能体强化学习算法生成标准经验：步骤2，从标准经验中采样伪目标，构造伪目标集合：步骤3，依据伪目标，使用后见之明单元生成伪经验：步骤4，智能体结合标准经验和伪经验更新智能体策略—评判网络。本发明专利技术针对复杂环境下智能体探索时存在大量失败经验的问题进行了定制化设计，较好的解决了智能体仅能依据失败经验进行学习的问题，能有效提升算法的采样效率和学习效果。习效果。习效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合后见之明思想的群体智能学习方法

[0001]本专利技术属于多智能体深度强化学习领域，特别涉及该领域中的一种融合后见之明思想的通用有效群体智能学习方法。

技术介绍

[0002]随着科学技术的不断进步，强化学习和深度学习相结合，形成了深度强化学习领域，其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。尽管深度强化学习在多智能体系统的应用方面已经取得了一些成果，但是仍然存在一些挑战，其中一点是经验回放区中大多为失败经验。多智能体场景的状态动作空间随着智能体数量的增长呈指数型增长，在如此大的空间中进行试错，智能体很难得到成功的经验。这就导致智能体只能使用失败经验进行学习，几乎不能得到效果好的策略。另一个问题是经验只能通过与环境交互得到，导致采样效率较低。因此，强化学习研究的一个重要方向是采用更有效率的采样方法并得到质量更高的经验。
[0003]目前已有通过经验回放技术提高采样效率并提升经验质量的做法，DQN(Deep Q
‑
Network)首次将经验回放的概念引入深度强化学习中，利用它存储每一步产生的经验以便后续更新使用，一定程度上解决了采样效率低的问题。PER(Prioritized Experience Replay)对经验回放进行了改进，开发出一个优先考虑经验的框架，以便更频繁地回放重要的经验，进行更有效地学习。DER(Dynamic Experience Replay)使强化学习算法不仅可以使用人类演示中的经验回放样本，还可以使用智能体在训练过程中成功进行的状态转...

【技术保护点】

【技术特征摘要】
1.一种融合后见之明思想的群体智能学习方法，其特征在于，包括如下步骤：步骤1，使用多智能体强化学习算法生成标准经验：环境中的每个智能体都有自己的策略—评判网络，策略网络输入智能体自身的状态s＝o||g，其中，o是智能体的局部观测值，g是本回合的目标，o和g采用直接连接的方式构成状态，策略网络的输出是动作a；智能体依据策略网络选择出的动作与环境交互，得到一条标准经验(z，(a1，
…
，a
N
)，(r1，
…
，r
N
)，z
′
)，其中，N表示环境中的智能体数量，z＝(o1||g，o2||g，
…
，o
N
||g)，代表所有智能体的状态，z
′
代表所有智能体转移到的下一状态，a
n
是第n个智能体选择执行的动作，r
n
是第n个智能体动作后得到的即时奖励，1≤n≤N，计算方法为：r
n
＝R(o
n
′
，g，a
n
)其中，R为奖励函数，o
n
′
为第n个智能体转移到的下一局部观测值，得到的标准经验存入经验回放区D；步骤2，从标准经验中采样伪目标，构造伪目标集合：将z
′
作为新的状态输入策略网络，策略网络选择新的动作，重复T步完成一回合的交互，T为正整数，得到一条状态转移轨迹(z1，z2，
…
，z
T
)，对于第t步得到的标准经验(z
t
，(a
t1
，a
t2
，
…
，a
tN
)，(r
t1
，r
t2
，
…
，r
tN
)，z
t+1
)，1≤t≤T，从状态转移轨迹(z
t+1
，z
t+2
，
…
，z
T
)中随机选择K个状态，K为正整数，将所选状态中的观测值(o1，o2，
…
，o
K
)作为伪目标(g1，g2，
…
，g...

【专利技术属性】
技术研发人员：程尧，赵军，王莉，李承璟，张祎琳，左伟庆，冯阳，郭琛，
申请(专利权)人：中国电波传播研究所中国电子科技集团公司第二十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人