本发明专利技术公开了基于多智能体强化学习的动作集合输出方法及系统,方法包括S1、构建树结构的模型架构;S2、将步骤S1中构建的树结构中的每个子节点均建模为智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;S3、所有智能体与环境交互,进行强化学习训练以形成动作集合输出模型;S4、利用基于多智能体强化学习动作集合输出模型对待处理的动作空间中的各动作进行评分,生成目标动作集合进行推荐。本发明专利技术使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题,可以获得良好的可扩展性、更精准更快的训练和推理速度;本发明专利技术使用MCTS算法增加上层智能体决策的信息量,可进行有效的搜索,得到更加准确的决策。
【技术实现步骤摘要】
基于多智能体强化学习的动作集合输出方法及系统
本专利技术涉及多智能体强化学习技术,特别涉及一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。
技术介绍
在强化学习中,问题通常被建模为智能体和环境进行交互的马尔科夫决策过程MDP<S,A,R,P,γ>,S是状态空间,A是动作空间,R是奖励函数,P:S×A→S是概率转移算子,γ是折扣因子,t是时间步。智能体的策略是π:S→A,智能体通过接受环境反馈的状态st,获得观测状态ot,通过观测状态ot做出行动at,施加到环境中,环境接收到智能体的动作at之后,会反馈给智能体下一时刻的状态st+1和奖励rt+1。智能体的目标是优化长期的累计收益T是时间范围。目前大部分的强化学习推荐系统都是建模为马尔可夫决策过程。在训练过程中,可以考虑利用Q-Learning(一种强化学习算法)和DQN(DeepQ-Learning,一种深度强化学习算法),Q-Learning和DQN是强化学习中流行的方法,可以被直接应用到多智能体强化学习中。Q-Learning的策略π的Q-function(Q函数)是Qπ(s,a)=E[R|st=s,at=a]。这个Q-function可以被递归的写为Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]](即可以通过该公式计算Q值)。DQN学习通过最小化损失获得最优策略的Q-functionQ*:L(θ)=ES,a,r,s′[(Q*(s,a|θ)-y)2],其中是目标Q-function,定期的更新目标Q-function可以使得学习过程更加稳定。另外,在强化学习训练过程中,还可以考虑策略梯度方法,策略梯度方法是强化学习中另一个流行的方法。ρπ代表策略的状态访问分布,策略梯度方法主要的想法是直接优化参数θ最大化目标收益通过直接对其求导,使用前述定义的Q函数进行策略的参数更新:ρπ是状态分布。策略梯度定理有很多实用的方法,只是在估计Qπ的时候有差异,最常见一种是REINFORCE算法,直接用采样得到的奖励还有一种是actor-critic(演员-评论家)算法,使用Q-functionQπ(s,a)的近似作为评论家。另外,策略梯度可以被扩展到连续动作空间,可以通过DPG算法和DDPG算法优化确定性策略μθ:S→A的参数,具体可通过确定性策略梯度理论:另外,搜索、推荐、广告领域广泛存在召回和排序问题,从大规模候选集合中,过滤出可能有效的候选集合,这个有效候选集合可能有上千的规模,最终展示在用户面前的时候,需要排好顺序,属于大规模决策集问题。自然语言处理领域中,语言模型、文本生成、机器翻译等任务中,需要从大规模的候选词表中,输出一个集合的词,属于大规模决策集问题。机器人领域中,机器人需要能够控制每个关节的角速度、运转方向等,需要输出一个集合的决策,属于大规模决策集问题。一些电子游戏中,存在上千万的候选动作,并且每个时刻需要输出多个动作,移动、释放技能、使用物品等,属于大规模决策集问题,而现有技术中对此并没有提供高效的解决方案,导致难以准确高效的在大规模动作空间中输出动作集合。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中难以准确高效的在大规模动作空间中输出动作集合的缺陷,提供一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供了一种基于多智能体强化学习的动作集合输出方法,所述方法包括以下步骤:S1、构建树结构的模型架构;S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;S3、所有的智能体与环境交互,进行强化学习训练以形成动作集合输出模型;S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对待处理的动作空间中的各动作进行评分,并生成目标动作集合进行推荐。较佳地,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,其中di是第i层容纳的智能体数量,映射把智能体映射到第j层的跟随智能体;所有智能体可能的状态空间是S,动作空间是观测是第j个智能体的策略是智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R得到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益是折扣因子,t是时间步,T是时间范围。较佳地,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:其中是t+1时间步,与j同层次的智能体的Q值的平均值。较佳地,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布;直到第i层的跟随智能体输出一个集合的决策。本专利技术还提供了一种基于多智能体强化学习的动作集合输出系统,所述系统包括:模型构建模块,用于构建树结构的模型架构;智能体建模模块,用于将所述模型构建模块构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈形成一个多智能体系统;强化学习训练模块,用于对所有的智能体与环境交互,进行强化学习训练以形成动作集合输出模型;决策模块,用于利用所述动作集合输出模型对待处理的动作空间中的各动作进行评分,并生成目标动作集合进行推荐。较佳地,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,其中di是第i层容纳的智能体数量,映射把智能体映射到第k层的跟随智能体;所有智能体可能的状态空间是S,动作空间是观测是第j个智能体的策略是智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和本文档来自技高网...
【技术保护点】
1.一种基于多智能体强化学习的动作集合输出方法,其特征在于,所述方法包括以下步骤:/nS1、构建树结构的模型架构;/nS2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;/nS3、所有的智能体与环境交互,进行强化学习训练以得到动作集合输出模型;/nS4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分,并且决策出目标动作集合。/n
【技术特征摘要】
1.一种基于多智能体强化学习的动作集合输出方法,其特征在于,所述方法包括以下步骤:
S1、构建树结构的模型架构;
S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;
S3、所有的智能体与环境交互,进行强化学习训练以得到动作集合输出模型;
S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分,并且决策出目标动作集合。
2.如权利要求1所述的基于多智能体强化学习的动作集合输出方法,其特征在于,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,其中di是第i层容纳的智能体数量,映射把智能体映射到第k层的跟随智能体;所有智能体可能的状态空间是S,动作空间是观测是第j个智能体的策略是Oj×Aj→[0,1],智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子T:根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R得到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益γ∈(0,1)是折扣因子,t是时间步,T是时间范围。
3.如权利要求2所述的基于多智能体强化学习的动作集合输出方法,其特征在于,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:
每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:其中是t+1时间步,与j同层次的智能体的Q值的平均值。
4.如权利要求2或3所述的基于多智能体强化学习的动作集合输出方法,其特征在于,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布,Nj是第j个智能体已经被选中的次数;直到第i层的跟随智能体输出一个集合的决策。
5.一种基于多智能体强化学习的动作集合输出系统,其特征在于,所述系统包括:
模型构建模块,用于构建树结构的模型架构;
智能体建模模块,用于将所述模型构建模块构建的树结构...
【专利技术属性】
技术研发人员:赵佳,
申请(专利权)人:赵佳,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。