一种基于值分布的多智能体强化学习方法及系统技术方案

技术编号:31377929 阅读:9 留言:0更新日期:2021-12-15 11:18
本发明专利技术公开了一种基于值分布的多智能体强化学习方法及系统,能够在训练过程中能够很好地捕获长期回报中存在的随机性,精准地预测真实的价值函数分布,解决了由于环境随机性过大而训练不平稳的问题,使得策略收敛更快,模型性能得到有效提升。此外,根据定义的离散分布的变换操作,该方法可以与所有基于集中式训练分散式执行范式的方法相结合。练分散式执行范式的方法相结合。练分散式执行范式的方法相结合。

【技术实现步骤摘要】
一种基于值分布的多智能体强化学习方法及系统


[0001]本专利技术涉及多智能体强化学习
,尤其涉及一种基于值分布的多智能体强化学习方法及系统。

技术介绍

[0002]强化学习已被广泛应用于各种合作多智能体问题,例如多人游戏、传感器网络和交通灯控制等,这些复杂的现实问题都可以被建模为一个合作多智能体系统。在合作多智能体系统中,由于智能体的部分可观和智能体间通信限制,每个智能体只能以分散的方式与环境交互。在交互过程中,智能体的部分可观、智能体策略的变化、奖励函数和状态转换函数都会给长期回报带来随机性。此外,这种随机性会随着智能体数量的增加而加剧。
[0003]近年来,基于值分布的强化学习在单智能体领域中取得了很大的成就,不同于传统强化学习中只预测价值函数的均值,它通过利用离散分布或分位数函数来估计价值函数的随机分布。估计值分布尽管可以建模长期回报中的随机性,但很难直接应用于基于集中式训练分散式执行范式的多智能体强化学习。
[0004]现有主流的多智能体强化学习训练范式为集中式训练分散式执行,使智能体既能在训练过程中利用全局信息来协调合作,又能在执行时只利用部分观测信息。当前许多基于价值函数的多智能体强化学习技术都采用了该范式,它们通过团队奖励引导联合价值函数的学习,并将联合价值函数分解为智能体个人的价值函数,从而使每个智能体集中化学习策略,然后只依赖于个人的价值函数来执行。但是,依然存在如下技术问题:
[0005]1)现实的多智能体问题中的环境和奖励通常存在随机性,导致了长期回报的随机性,而现有主流的多智能体强化学习技术只拟合了长期回报的均值,忽视了其内在的随机性,进而会使策略收敛不平稳。例如,自动驾驶汽车场景中模型无法准确有效的自动驾驶汽车,影响车上乘客以及道路其他车辆的安全;计算机游戏场景中无法自动游戏,降低玩家的游戏体验。
[0006]2)现有的集中式训练分散式执行范式只适用于将联合价值函数均值分解为多个个人价值函数均值,不适用于将联合价值函数分布分解为多个个人价值函数分布,导致估计值分布的思想很难应用于基于集中式训练分散式执行范式的多智能体强化学习,从而导致在实际应用场景中无法应对突发事件,使策略不够安全稳定;例如,自动驾驶汽车场景中无法有效应对突发事件,影响车上乘客以及道路其他车辆的安全,同样的,对于计算机游戏场景中某些突发情况也无法有效应对,降低了玩家的游戏体验。

技术实现思路

[0007]本专利技术的目的是提供一种基于值分布的多智能体强化学习方法及系统,能够应用于自动驾驶汽车场景、计算机游戏场景等随机性较大的多智能体场景,对于自动驾驶汽车场景,可以让汽车更全面地感知路面信息,使驾驶更安全;对于计算机游戏场景,可以让游戏单元间的配合更加默契,提升玩家的游戏体验。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]一种基于值分布的多智能体强化学习方法,包括:
[0010]应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,将个人价值函数的分布建模为离散分布;
[0011]基于多种离散分布的变换操作设计分布混合网络,分布混合网络的每一层对个人价值函数对应的离散分布进行变换操作,最终将多个个人价值函数的离散分布合并为一个联合价值函数的离散分布;
[0012]使用团队奖励来引导联合价值函数离散分布的学习,同时通过分布混合网络来反向引导各智能体值分布函数网络的学习;
[0013]学习完毕后,应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,再根据个人价值函数的分布的均值来选取最优动作。
[0014]一种基于值分布的多智能体强化学习系统,用于实现前述的方法,该系统包括:
[0015]离散分布建模单元,用于应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,将个人价值函数的分布建模为离散分布;;
[0016]离散分布合并单元,用于基于多种离散分布的变换操作设计分布混合网络,分布混合网络的每一层对个人价值函数对应的离散分布进行变换操作,最终将多个个人价值函数的离散分布合并为一个联合价值函数的离散分布;
[0017]学习单元,用于使用团队奖励来引导联合价值函数离散分布的学习,同时通过分布混合网络来反向引导各智能体值分布函数网络的学习;
[0018]动作选择单元,用于在学习完毕后,应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,再根据个人价值函数的分布的均值来选取最优动作。
[0019]由上述本专利技术提供的技术方案可以看出,针对随机性较大的多智能体场景,能够在训练过程中能够很好地捕获长期回报中存在的随机性,精准地预测真实的价值函数分布,解决了由于环境随机性过大而训练不平稳的问题,使得策略收敛更快,模型性能得到有效提升,提升模型性能主要体现提升了相应应用场景中的任务效果,例如,对于自动驾驶汽车场景,可以让汽车更全面地感知路面信息,使驾驶更安全;对于计算机游戏场景,可以让游戏单元间的配合更加默契。此外,根据定义的离散分布的变换操作,该方法可以与所有基于集中式训练分散式执行范式的方法相结合,可见本专利技术具备较大的扩展性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0021]图1为本专利技术实施例提供的一种基于值分布的多智能体强化学习方法的流程图;
[0022]图2为本专利技术实施例提供的离散分布的变换操作的示意图;
[0023]图3为本专利技术实施例提供的一种基于值分布的多智能体强化学习系统的示意图。
具体实施方式
[0024]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0025]首先对本文中可能使用的术语进行如下说明:
[0026]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0027]下面对本专利技术所提供的一种基于值分布的多智能体强化学习方法进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于值分布的多智能体强化学习方法,其特征在于,包括:应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,将个人价值函数的分布建模为离散分布;基于多种离散分布的变换操作设计分布混合网络,分布混合网络的每一层对个人价值函数对应的离散分布进行变换操作,最终将多个个人价值函数的离散分布合并为一个联合价值函数的离散分布;使用团队奖励来引导联合价值函数离散分布的学习,同时通过分布混合网络来反向引导各智能体值分布函数网络的学习;学习完毕后,应用场景中每一智能体值分布函数网络根据观测到的场景数据,输出个人价值函数的分布,再根据个人价值函数的分布的均值来选取最优动作。2.根据权利要求1所述的一种基于值分布的多智能体强化学习方法,其特征在于,所述应用场景包括:自动驾驶汽车场景;所述自动驾驶汽车场景中,每一辆汽车作为一个智能体,各自构建了一个值分布函数网络;所述场景数据包括:速度信息、位置信息、以及与周围车辆及行人的距离。3.根据权利要求1所述的一种基于值分布的多智能体强化学习方法,其特征在于,所述应用场景包括:计算机游戏场景;所述计算机游戏场景,每一个游戏单元作为一个智能体,每一个游戏单元单独控制游戏中己方一个游戏单位,对每一个智能体各自构建一个值分布函数网络;所述场景数据包括:游戏场景中己方游戏单位的位置、血量,以及视野范围内的己方游戏单位、敌方单位的位置和血量。4.根据权利要求1所述的一种基于值分布的多智能体强化学习方法,其特征在于,所述离散分布用一组离散值和每个离散值对应的概率表示,一组离散值称为离散分布的基。5.根据权利要求4所述的一种基于值分布的多智能体强化学习方法,其特征在于,所述多种离散分布的变换操作包括:加权操作、偏置操作、卷积操作、投影操作和函数变换操作;其中:加权操作是将一个离散分布的基乘以一个权重,对离散分布的基进行放缩;偏置操作是将一个离散分布的基加上一个常数,对离散分布的基进行平移;卷积操作是对两个离散分布进行求和;投影操作是让两个离散分布的基保持一致;函数变换操作是对一个离散分布的基进行非线性变换。6.根据权利要求5所述的一种基于值分布的多智能体强化学习方法,其特征在于,所述分布混合网络为多层的神经网络,从第一层至于倒数第二层中,...

【专利技术属性】
技术研发人员:李厚强周文罡赵鉴阳明宇
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1