当前位置: 首页 > 专利查询>山东大学专利>正文

基于强化学习的随机多智能体优化控制方法及系统技术方案

技术编号:39572625 阅读:19 留言:0更新日期:2023-12-03 19:24
本发明专利技术提出了基于强化学习的随机多智能体优化控制方法及系统,涉及多智能体控制技术领域

【技术实现步骤摘要】
基于强化学习的随机多智能体优化控制方法及系统


[0001]本专利技术属于多智能体控制
,尤其涉及基于强化学习的随机多智能体优化控制方法及系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术

[0003]多智能体系统自
20
世纪
70
年代被提出后,在计算机科学

分布式决策

交通控制

智能机器人等领域迅速发展应用,成为了分布式人工智能的研究热点

近年来,多智能体

强化学习

对策论

控制论等领域交叉融合形成了多智能体强化学习
(MARL)。
强化学习的环境是用马尔科夫决策过程描述的,扩展到多智能体系统被定义为马尔科夫博弈,也称为随机博弈

在完全合作的随机博弈过程中,多智能体系统能根据与环境交互后反馈的信息进行迭代,找到最优策略,使系统达到纳什均衡状态

[0004]该领域已经有了很多经典的算法,然而传统的
MARL
算法多用来解决小规模确定性问题

现实中的多智能体环境和动作空间一般是连续且复杂的,不能直接移植传统算法

对此,可以用神经网络表示值函数和策略函数,提供一种端到端的学习方式,降低了直接求解耦合的哈密顿

雅克比
/>贝尔曼
(HJB)
方程的难度

考虑到传统方法忽略了多智能体学习过程中噪声的干扰,如何增强多智能体系统的鲁棒性和可扩展性,降低计算复杂度是目前面对的较大挑战


技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供了一种基于强化学习的随机多智能体优化控制方法及系统,考虑了多智能体学习过程中噪声的干扰,通过
Critic
神经网络和
Actor
神经网络实时学习随机多智能体图形对策的最优解,而不需要求解耦合的
HJB
方程,降低了直接求解耦合
HJB
方程的复杂度,解决了高维复杂环境中多智能体系统大规模优化问题,保证系统的鲁棒性和稳定性

[0006]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0007]本专利技术第一方面提供了基于强化学习的随机多智能体优化控制方法

[0008]基于强化学习的随机多智能体优化控制方法,包括以下步骤:
[0009]步骤一:构建多智能体系统中的通信拓扑结构,考虑噪声干扰,构建动态局部邻域跟踪误差模型,定义值函数作为评价随机多智能体微分对策的性能指标,根据动态局部邻域跟踪误差模型和值函数得到
HJB
方程;
[0010]步骤二:构建包含
Critic
神经网络和
Actor
神经网络的两层神经网络模型,采用
Critic
神经网络近似表示每个智能体的值函数,采用
Actor
神经网络近似表示每个智能体的策略函数,在线拟合耦合
HJB
方程;
[0011]步骤三:基于强化学习中的策略迭代算法求解随机多智能体分布式微分图形对策
问题,调整
Critic
神经网络和
Actor
神经网络的参数在线学习得到耦合
HJB
方程的近似解;
[0012]步骤四:基于耦合
HJB
方程的近似解,得到多智能体系统的最优控制策略,使多智能体系统达到同步

[0013]本专利技术第二方面提供了基于强化学习的随机多智能体优化控制系统

[0014]基于强化学习的随机多智能体优化控制系统,包括:
[0015]HJB
方程构建模块,被配置为:构建多智能体系统中的通信拓扑结构,考虑噪声干扰,构建动态局部邻域跟踪误差模型,定义值函数作为评价随机多智能体微分对策的性能指标,根据动态局部邻域跟踪误差模型和值函数得到
HJB
方程;
[0016]神经网络模型搭建模块,被配置为:构建包含
Critic
神经网络和
Actor
神经网络的两层神经网络模型,采用
Critic
神经网络近似表示每个智能体的值函数,采用
Actor
神经网络近似表示每个智能体的策略函数,在线拟合耦合
HJB
方程;
[0017]强化学习模块,被配置为:基于强化学习中的策略迭代算法求解随机多智能体分布式微分图形对策问题,调整
Critic
神经网络和
Actor
神经网络的参数在线学习得到耦合
HJB
方程的近似解;
[0018]最优控制策略获取模块,被配置为:基于耦合
HJB
方程的近似解,得到多智能体系统的最优控制策略,使多智能体系统达到同步

[0019]本专利技术第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的基于强化学习的随机多智能体优化控制方法中的步骤

[0020]本专利技术第四方面提供了电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的基于强化学习的随机多智能体优化控制方法中的步骤

[0021]以上一个或多个技术方案存在以下有益效果:
[0022]1、
本专利技术开发了一种基于策略迭代结构的在线自适应学习算法,采用
Critic
神经网络近似表示每个智能体的值函数,采用
Actor
神经网络近似表示每个智能体的策略函数,定义
Critic

Actor
神经网络的权重系数,通过调整神经网络参数在线学习得到耦合
HJB
方程的近似解,通过实时学习的方式得到随机多智能体图形对策的最优解,而不需要求解耦合的
HJB
方程,降低了直接求解耦合
HJB
方程的复杂度,使得随机多智能体优化控制过程更加高效准确,具有较广的应用价值和较强的可扩展性

[0023]2、
本专利技术针对存在噪声干扰情况下的连续时间随机多智能体图形对策问题,提供了基于强化学习的在线自适应学习算法,在保证收敛性和稳定性的同时,提高了系统的抗干扰能力

[0024]3、
本专利技术只需要考虑智能体自身与其邻居智能体之间的局部信息,减少了智能体与环境交互时受到的干扰,增强了系统的鲁棒性,同时节省了计算成本

[0025]4、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于强化学习的随机多智能体优化控制方法,其特征在于,包括以下步骤:步骤一:构建多智能体系统中的通信拓扑结构,考虑噪声干扰,构建动态局部邻域跟踪误差模型,定义值函数作为评价随机多智能体微分对策的性能指标,根据动态局部邻域跟踪误差模型和值函数得到
HJB
方程;步骤二:构建包含
Critic
神经网络和
Actor
神经网络的两层神经网络模型,采用
Critic
神经网络近似表示每个智能体的值函数,采用
Actor
神经网络近似表示每个智能体的策略函数,在线拟合耦合
HJB
方程;步骤三:基于强化学习中的策略迭代算法求解随机多智能体分布式微分图形对策问题,调整
Critic
神经网络和
Actor
神经网络的参数在线学习得到耦合
HJB
方程的近似解;步骤四:基于耦合
HJB
方程的近似解,得到多智能体系统的最优控制策略,使多智能体系统达到同步
。2.
如权利要求1所述的基于强化学习的随机多智能体优化控制方法,其特征在于:考虑智能体在与邻居智能体交互时产生的跟踪误差,同时受到环境中噪声的干扰,构建智能体的状态方程;基于智能体及其邻居智能体的交互,得到局部邻域跟踪误差方程;基于智能体的状态方程和局部邻域跟踪误差方程,构建出动态局部邻域跟踪误差模型
。3.
如权利要求2所述的基于强化学习的随机多智能体优化控制方法,其特征在于,所述多智能体的状态方程为:
dx
i

(Ax
i
+B
i
u
i
)dt+
σ
dw
i

i∈N
,其中,
x
i
(t)∈R
n
是智能体
i
的状态,是智能体
i
的控制输入,控制矩阵
A∈R
n
×
n
,输入矩阵
σ
w
i
代表系统的加性噪声,
w
i
是独立的布朗运动,
σ
∈R
n
是扩散系数
。4.
如权利要求3所述的基于强化学习的随机多智能体优化控制方法,其特征在于,所述动态局部邻域跟踪误差模型为:其中,其中,
N
i

{v
j
∶(v
j
,v
i
)∈
ε
}
是有向图中由节点
i
的所有邻居节点
j
构成的集合,节点
i
代表智能体
i
,节点
j
代表智能体
i
的邻居智能体
j

e
ij
为有向边,代表节点
j
向节点
i
传递信息的通路;是节点
i
的加权入度;的加权入度;
5.
如权利要求1所述的基于强化学习的随机多智能体优化控制方法,其特征在于,所述步骤三中:根据
Critic
神经网络模拟出值函数,近似表示
HJB
方程,并定义残差平方作为控制指标;利用
Actor
神经网络估计控制策略;
采用梯度下降法同时更新
Critic
神经网络和
Actor
神经网络的权重系数,直至权重系数收敛,残差平方和最小;否则根据更新后的权重系数得到下一次迭代的值函数和控制策略,并计算出下一时刻的状态,重新投入到
Critic
神经网络和
Actor
...

【专利技术属性】
技术研发人员:王炳昌曹颖张宝强
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1