一种基于强化学习的网络化多智能体系统分布式优化控制方法技术方案

技术编号:23315907 阅读:45 留言:0更新日期:2020-02-11 18:05
一种基于强化学习的网络化多智能体系统分布式优化控制方法,属于系统控制方法技术领域,所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off‑policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈与Off‑policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off‑policy的优化控制问题求解,(2)基于近似策略迭代分布式近似最优控制策略设计;(3)采用仿真软件和多机械手控制系统物理实验平台,根据仿真和物理实验结果,对理论方法和控制技术做相应调整。

A distributed optimal control method of networked multi-agent system based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的网络化多智能体系统分布式优化控制方法
本专利技术属于系统控制方法
,具体涉及一种基于强化学习的网络化多智能体系统分布式优化控制方法,将图博弈(Graphicalgames)与非策略(Off-policy)和积分强化学习(IRL)融合,给出系统模型完全未知情况下,保证网络化多智能体一致性和性能最优控制优化问题求解方案。
技术介绍
实际应用领域,由于大规模复杂加工技术和程序,系统模型复杂,系统辨识精度低且代价高,甚至系统无法辨识。在系统模型完全未知的情况下,现有的完全模型依赖和部分模型依赖优化控制方法,在实际应用中无法实现。目前对基于强化学习的网络化多智能体分布式优化控制研究还处于初级阶段,尚不具备一套完整的理论体系来支持相关技术的发展,急需提出基于强化学习的网络化多智能体系统分布式优化控制方法。本专利技术针对网络化多智能体,开展无模型一致性最优控制、分布式自适应优化控制等问题,以无模型多智能体系统为对象、以近似策略迭代学习为基本方法、以分布式控制为基本手段、以性能优化和一致性为根本目标,建立强化学习的网络化多智能体本文档来自技高网...

【技术保护点】
1.一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off-policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈(Graphical games)与Off-policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off-policy的优化控制问题求解,针对有领导者和无领导者两种情况,涉及网络化多智能体系统模型完全未知的优化控制问题求解算法,将IRL技术和off-policy策略迭代加强学习方法融...

【技术特征摘要】
1.一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off-policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈(Graphicalgames)与Off-policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off-policy的优化控制问题求解,针对有领导者和无领导者两种情况,涉及网络化多智能体系统模型完全未知的优化控制问题求解算法,将IRL技术和off-policy策略迭代加强学习方法融合,并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中;(2)基于近似策略迭代分布式近似最优控制策略设计;(3)采用仿真软件和多机械手控制系统物理实验平台,联合验证理论方法和结果的有效性,根据仿真和物理实验结果,对理论方法和控制技术做相应调整。


2.根据权利要求1所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤(1)分为三个阶段:1)优化问题建模、2)优化问题求解、3)无模型最优控制协议算法设计;
所述步骤1)优化问题建模具体为:首先,根据智能体之间的信息交互,构建通信拓扑图,得到图拉普拉斯矩阵;其次,根据智能体与邻居智能体(包括领导者)之间的相对状态偏差,建模相对状态偏差动态;根据相对状态偏差、控制输入和邻居智能体控制输入,定义二次性能指标函数;最后,构建以相对状态偏差动态为约束,以最优化性能指标和实现一致性(同步)为目标的优化问题数学模型;
所述步骤2)优化问题求解具体为:求解第一阶段构建的优化控制问题,首先,基于动态规划算法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程;然后基于图论、李雅普诺夫(Lyapunov)稳定性理论、牛顿-莱布尼兹公式,以及Nash均衡理论,证明求解耦合协同博弈HJB方程得到的控制策略,使智能体实现全局Nash均衡,并且保证系统一致或与领导者同步;
所述步骤3)基于第二阶段获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。


3.根据权利要求2所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤3)中具体为:①、IRL方法与策略迭代算法融合,给出不包含智能体模型信息的关于值函数和控制策略的迭代方程;②、证明Off-policyBellman方程与耦合协同博弈HJB方程解的等价性;③、根据1)中得到的迭代方程设计Off-policyIRL算法,分析算法的收敛性。


4....

【专利技术属性】
技术研发人员:李金娜张一晗
申请(专利权)人:辽宁石油化工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1