当前位置: 首页 > 专利查询>赵佳专利>正文

基于多智能体强化学习的动作集合输出方法及系统技术方案

技术编号：26172900 阅读：46 留言：0更新日期：2020-10-31 13:53

本发明专利技术公开了基于多智能体强化学习的动作集合输出方法及系统，方法包括S1、构建树结构的模型架构；S2、将步骤S1中构建的树结构中的每个子节点均建模为智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；S3、所有智能体与环境交互，进行强化学习训练以形成动作集合输出模型；S4、利用基于多智能体强化学习动作集合输出模型对待处理的动作空间中的各动作进行评分，生成目标动作集合进行推荐。本发明专利技术使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题，可以获得良好的可扩展性、更精准更快的训练和推理速度；本发明专利技术使用MCTS算法增加上层智能体决策的信息量，可进行有效的搜索，得到更加准确的决策。

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的动作集合输出方法及系统
本专利技术涉及多智能体强化学习技术，特别涉及一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。
技术介绍
在强化学习中，问题通常被建模为智能体和环境进行交互的马尔科夫决策过程MDP<S,A,R,P,γ>，S是状态空间，A是动作空间，R是奖励函数，P:S×A→S是概率转移算子，γ是折扣因子，t是时间步。智能体的策略是π:S→A，智能体通过接受环境反馈的状态st，获得观测状态ot，通过观测状态ot做出行动at，施加到环境中，环境接收到智能体的动作at之后，会反馈给智能体下一时刻的状态st+1和奖励rt+1。智能体的目标是优化长期的累计收益T是时间范围。目前大部分的强化学习推荐系统都是建模为马尔可夫决策过程。在训练过程中，可以考虑利用Q-Learning(一种强化学习算法)和DQN(DeepQ-Learning，一种深度强化学习算法)，Q-Learning和DQN是强化学习中流行的方法，可以被直接应用到多智能体强化学习中。Q-Learning的策略π的Q-function(Q函数)是Qπ(s,a)＝E[R|st＝s,at＝a]。这个Q-function可以被递归的写为Qπ(s,a)＝Es′[r(s,a)+γEa′～π[Qπ(s′,a′)]](即可以通过该公式计算Q值)。DQN学习通过最小化损失获得最优策略的Q-functionQ*:L(θ)＝ES,a,r,s′[(Q*(s,a|θ)-y)2],其中是目标Q-function...

【技术保护点】
1.一种基于多智能体强化学习的动作集合输出方法，其特征在于，所述方法包括以下步骤：/nS1、构建树结构的模型架构；/nS2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；/nS3、所有的智能体与环境交互，进行强化学习训练以得到动作集合输出模型；/nS4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分，并且决策出目标动作集合。/n

【技术特征摘要】
1.一种基于多智能体强化学习的动作集合输出方法，其特征在于，所述方法包括以下步骤：
S1、构建树结构的模型架构；
S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；
S3、所有的智能体与环境交互，进行强化学习训练以得到动作集合输出模型；
S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分，并且决策出目标动作集合。

2.如权利要求1所述的基于多智能体强化学习的动作集合输出方法，其特征在于，所述树结构为i层m叉树，其中i和m均为正整数；i层层级结构中的每个节点n都是智能体j，其中di是第i层容纳的智能体数量，映射把智能体映射到第k层的跟随智能体；所有智能体可能的状态空间是S，动作空间是观测是第j个智能体的策略是Oj×Aj→[0，1]，智能体j根据观测做出所有可能行动的概率分布；其中，第k层的智能体的策略记为在每个时间步中，从第1层的策略π1到第i层的策略πi依次进行序列决策，直到第i层智能体做完决策之后，多智能体系统把联合决策传递到环境中，根据状态转移算子T：根据当前时间步的状态和动作，产生下一个时间步的状态，每个智能体j的奖励由状态和动作的函数rj：S×Aj→R得到，环境根据智能体的状态和行动给出一个实数值的反馈，并且每个智能体接收到跟状态相关的观测为oj：S→Oj，从状态空间映射到每个智能体的观测空间；初始状态通过一个分布ρ：S→[0，1]得到，每个智能体j的目标是最大化总体的期望收益γ∈(0，1)是折扣因子，t是时间步，T是时间范围。

3.如权利要求2所述的基于多智能体强化学习的动作集合输出方法，其特征在于，使用Qπ(s，a)＝Es′[r(s，a)+γEa′～π[Qπ(s′，a′)]]计算Q值，智能体j的策略πj使用参数ρj进行参数化，每个时间步t参数的更新通过如下公式：
每个智能体的值函数用于评估推荐子节点可以带来的收益，使用参数θj近似Qj，每个时间步t通过回归最小化均方误差训练参数：其中是t+1时间步，与j同层次的智能体的Q值的平均值。

4.如权利要求2或3所述的基于多智能体强化学习的动作集合输出方法，其特征在于，第l层的跟随智能体集合是Cl，第l层智能体的决策方式是从跟随智能体中选出能够使得决策目标最大的k个智能体，其中λ∈[0，1]；对于每个智能体j，P(s，aj)＝(1-∈)πj(aj|s)+∈ηj，其中η～Dir(c)，∈∈[0，1]和c∈[0，1]，Dir是狄里克莱分布，Nj是第j个智能体已经被选中的次数；直到第i层的跟随智能体输出一个集合的决策。

5.一种基于多智能体强化学习的动作集合输出系统，其特征在于，所述系统包括：
模型构建模块，用于构建树结构的模型架构；
智能体建模模块，用于将所述模型构建模块构建的树结构...

【专利技术属性】
技术研发人员：赵佳，
申请(专利权)人：赵佳，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人