当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于值分解的多智能体强化学习方法及系统技术方案

技术编号:33921444 阅读:18 留言:0更新日期:2022-06-25 21:05
本发明专利技术公开了一种基于值分解的多智能体强化学习方法及系统,方法包括:获取环境当前t时刻的状态S

【技术实现步骤摘要】
function factorisation for deep multi

agent reinforcement learning[C]//International Conference on Machine Learning.PMLR,2018:4295

4304.)在VDN的基础上进一步提出的基于CTDE的多智能体强化学习算法。该算法用神经网络去近似Q
tot
(τ,a),但要确保神经网络所有的参数必须为非负数,因为神经网络希望学到的是能帮助自己去近似全局奖励的局部动作,所以Q
tot
(τ,a)与单个智能体局部奖励值函数之间的关系必须满呈单调性,每个智能体选择的局部最优动作恰好就是全局最优动作的一部分这种情况是个特例。而且VDN没有尽可能利用集中式训练的优势,忽略了学习期间可用的任何额外状态信息,QMIX在近似Q
tot
(τ,a)时额外使用了全局状态,这样就可以基于全局状态进行训练,加快了整体训练速度。但是不管是累加性还是单调性,它们都其实严格限制了Q
tot
(τ,a)与单个智能体局部奖励值函数之间的关系,从而使得它们只能解决一小部分任务,因为可能很多任务中Q
tot
(τ,a)与单个智能体局部奖励值函数的关系不一定是累加或者单调,从而使得VDN和QMIX近似得到的Q
tot
(τ,a)与真实的Q
tot
(τ,a)相差很远。
[0005]QTRAN(Son K,Kim D,Kang W J,et al.Qtran:Learning to factorize with transformation for cooperative multi

agent reinforcement learning[C]//International Conference on Machine Learning.PMLR,2019:5887

5896.)聚焦于释放累加性和单调性的限制去分解所有可分解的任务,其思想在于只要保证个体最优动作和联合最优动作是相同的,那么单个智能体局部奖励值函数与Q
tot
(τ,a)的具体关系是不需要考虑的,QTRAN算法直接去学习一个真实的全局奖励,引入了一个补偿项来弥补学习到的Q
tot
(τ,a)与真实Q
tot
(τ,a)之间的差距,保证学习到的Q
tot
(τ,a)和真实的Q
tot
(τ,a)非常接近。
[0006]尽管以上框架都有很强的理论保证,但在复杂的环境中如公开号为CN111632387A的中国专利文献提到的星际争霸多智能体挑战(SMAC)中,以上算法主要存在以下问题:
[0007]在规模较大的协作环境下,值函数分解的过程中会出现一个问题:值函数的联合状态

动作空间的大小随着智能体数量的增加呈指数型增长,这使得快速有效地进行值分解变得更加困难,收敛时间经常得不到保证。值分解过程效率低下会对智能体造成以下两个影响:
[0008](1)由于多智能体环境的复杂性,在探索初期智能体需要花费大量时间去探索到对自身或系统有利的状态,探索空间的数量会随着智能体数目的增加而增加,在一些奖励稀疏的多智能体场景下极有可能长时间得不到奖励的正向反馈,智能体无法对场景信息进行有效感知并做出正确决策,收敛时间很难得到保证。
[0009](2)智能体在根据策略执行动作时,如果几个次优联合动作的错误估算超过了对单个最优联合动作的更好估计,就会导致最优动作对应的奖励被低估,使智能体选择价值次优的动作,从而导致智能体的动作评估陷入局部最优的循环并无法决策最佳的动作,延长了智能体进行动作决策的时间。
[0010]因此,如何在降低勘探成本的同时,实施全面有效的值分解策略来达到快速收敛是关键。

技术实现思路

[0011]本专利技术的目的是提出一种基于值分解的多智能体强化学习方法及系统,应用在复杂的部分可观察场景中,收敛速度较快,提高智能体学习效率,从而提高多智能体在复杂环
境下的反应能力。
[0012]为了实现上述专利技术目的,本专利技术采用如下的技术方案:
[0013]第一方面,提出一种基于值分解的多智能体强化学习方法,包括以下步骤:
[0014]获取环境当前t时刻的状态S
t
,每个智能体初始的观察值可获得的动作以及该动作对应的奖励r,其中i为智能体的序号,状态S
t
包含当前多智能体场景下的智能体数量,角色类型和上一时刻得到的联合奖励Q值函数大小;
[0015]对于每个智能体,通过评估

智能体网络计算每个动作基于局部信息τ
i
观察到的值函数Q
i

i
),其中局部信息τ
i
是智能体i的观察值动作奖励r和状态S
t
的信息集合;
[0016]利用随机

智能体网络对当前时刻状态S
t
加上参数化的噪音,使权重和偏置参数随机化,再将每回合结束时训练好的权重和偏置参数与每个智能体基于局部信息τ
i
的Q
i

i
)进行权重求和,得到每个智能体基于全局信息τ的奖励值函数Q
i
(τ);
[0017]目标

智能体网络计算损失函数并更新参数,接着随机

智能体网络也更新噪声参数并计算损失函数,其中目标

智能体网络是每隔一段时间对评估

智能体网络进行参数复制得到的;
[0018]利用竞争

智能体网络将每个智能体基于全局信息τ的奖励值函数Q
i
(τ)分解为优势值函数、状态值函数和动作值函数;
[0019]将分解结果相加得到基于全局信息τ的联合奖励值函数Q
tot
(τ,a),并更新竞争

智能体网络的参数和整体的损失函数,参数更新完毕后,利用训练完成的智能体在环境中执行动作。
[0020]进一步地,所述智能体包括以下任一种:游戏场景中的一个英雄、传感器网络中的单个传感器、机器人协作场景下的单个机器人、或自动驾驶场景下的一辆汽车。
[0021]进一步地,评估

智能体网络包含用于处理局部观察值和动作输入输出的MLP,以及用于记忆历史状态和动作信息的GRU循环神经网络:每个智能体将基于局部的观察值和动作输入到MLP中进行编码并输入到GRU循环神经网络中,GRU循环神经网络将当前时刻t的隐藏信息h
t
和上一层的输出作拼接,生成下一时刻t+1的隐藏信息h
t+1
和下一层的输入;第三层的MLP则生成每个智能体基于局部信息得到的值函数Q...

【技术保护点】

【技术特征摘要】
1.一种基于值分解的多智能体强化学习方法,其特征在于,包括以下步骤:获取环境当前t时刻的状态S
t
,每个智能体初始的观察值可获得的动作以及该动作对应的奖励r,其中i为智能体的序号,状态S
t
包含当前多智能体场景下的智能体数量,角色类型和上一时刻得到的联合奖励Q值函数大小;对于每个智能体,通过评估

智能体网络计算每个动作基于局部信息τ
i
观察到的值函数Q
i

i
),其中局部信息τ
i
是智能体i的观察值动作奖励r和状态S
t
的信息集合;利用随机

智能体网络对当前时刻状态S
t
加上参数化的噪音,使权重和偏置参数随机化,再将每回合结束时训练好的权重和偏置参数与每个智能体基于局部信息τ
i
的Q
i

i
)进行权重求和,得到每个智能体基于全局信息τ的奖励值函数Q
i
(τ);目标

智能体网络计算损失函数并更新参数,接着随机

智能体网络也更新噪声参数并计算损失函数,其中目标

智能体网络是每隔一段时间对评估

智能体网络进行参数复制得到的;利用竞争

智能体网络将每个智能体基于全局信息τ的奖励值函数Q
i
(τ)分解为优势值函数、状态值函数和动作值函数;将分解结果相加得到基于全局信息τ的联合奖励值函数Q
tot
(τ,a),并更新竞争

智能体网络的参数和整体的损失函数,参数更新完毕后,利用训练完成的智能体在环境中执行动作。2.根据权利要求1所述的基于值分解的多智能体强化学习方法,其特征在于,所述智能体包括以下任一种:游戏场景中的一个英雄、传感器网络中的单个传感器、机器人协作场景下的单个机器人、或自动驾驶场景下的一辆汽车。3.根据权利要求1所述的基于值分解的多智能体强化学习方法,其特征在于,评估

智能体网络包含用于处理局部观察值和动作输入输出的MLP,以及用于记忆历史状态和动作信息的GRU循环神经网络:每个智能体将基于局部的观察值和动作输入到MLP中进行编码并输入到GRU循环神经网络中,GRU循环神经网络将当前时刻t的隐藏信息h
t
和上一层的输出作拼接,生成下一时刻t+1的隐藏信息h
t+1
和下一层的输入;第三层的MLP则生成每个智能体基于局部信息得到的值函数Q
i

i
),包含单个智能体的局部历史信息τ
i
。4.根据权利要求1所述的基于值分解的多智能体强化学习方法,其特征在于,随机

智能体网络是一个权值和偏差受噪声参数随机扰动的神经网络,其中噪声参数θ定义为θ=μ+∑

ε,其中μ和∑是可学习的噪声参数向量,ε是零均值噪声的矢量,具有固定统计量,

表示逐元素乘法;噪声层的输出结果表示为y=(μ
w

w

ε
w
)x+μ
b

b

ε
b
,x为输入的当前时刻的状态S
t
,y为输出的经过噪声随机化扰动过后的状态S
t

,权重参数项μ
w

w

ε
w
大于0。5.根据权利要求1所述的基于值分解的多智能体强化学习方法,其特征在于,竞争

智能体网络对每个智能体的奖励值函数Q
i
(τ)进行分解包括:将当前时刻t的全局状态S
t
输入到评估

智能体网络中转化为只受状态影响的Q值函数,即状态值函数S
i
(τ);把当前时刻t智能体i所选择的动作输入到随机

智能体网络中并输出动作值函数C
i
(τ);把每个智能体基于全局信息τ的奖励值函数Q
i
(...

【专利技术属性】
技术研发人员:谢在鹏邵鹏飞高原张雨锋
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1