当前位置: 首页 > 专利查询>梧州学院专利>正文

一种基于强化学习的多智能体训练方法及系统技术方案

技术编号:39321556 阅读:12 留言:0更新日期:2023-11-12 16:01
本发明专利技术公开了一种基于强化学习的多智能体训练方法及系统,包括:对强化学习环境进行搭建;对智能体属性值和智能体行为进行设计;通过感知系统进行信息的获取,并传入决策系统,群集中的智能体根据传入的信息进行判断,选择对应的状态进行执行;判断是否传球成功,并在传球成功时,对个人进行奖励,并在进球时,对团体进行奖励;在智能体不断与环境交互中,通过神经网络收集每个智能体的行为信息和环境信息,拟合出每个智能体的期望累积回报函数;在强化学习过程中,将N个智能体集中在一起训练,并将决策信息存入神经网络中,形成一个具有共同目标的联合策略,完成多智能体强化学习。本发明专利技术达到更好地将多智能体协同合作应用在实际中的目的。在实际中的目的。在实际中的目的。

【技术实现步骤摘要】
一种基于强化学习的多智能体训练方法及系统


[0001]本专利技术涉及多智能体训练
,具体涉及一种基于强化学习的多智能体训练方法及系统。

技术介绍

[0002]多智能体系统可用于解决机器人系统、分布式决策、交通控制和商业管理等领域的问题。虚拟人群集作为一种典型的、复杂的多智能体系统,在进行独立执行的单体智能的同时,也可以进行群体协作的群集智能。多智能体的强化学习是虚拟人群集行为研究领域中的一个重要分支,将强化学习技术、博弈论等充分应用到多智能体系统,使得多个智能体在更高维且动态的真实场景中通过交互和决策完成错综复杂的计算机任务。虚拟人群集的仿真,主要包括实时绘制技术、运动控制技术和行为控制技术,体现了人类的基础行为能力。
[0003]强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习在计算机视觉、环境情景化的决策场景等人工智能领域都有诸多的应用。
[0004]多智能体强化学习是强化学习框架下的一个子分类,也是传统单智能体强化学习方法拓展与延伸。与集中进行决策的单智能体不同的是,在虚拟人群集协作当中的多智能体系统的每个智能之间都会存在竞争和协同等多种复杂性的关系。为了更好地将多智能体协同合作应用在实际中,就必须解决虚拟人群集中智能体间的合作与竞争关系。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供一种基于强化学习的多智能体训练方法及系统,用于解决现有技术无法有效解决虚拟人群集中智能体间的合作与竞争关系的技术问题,从而达到更好地将多智能体协同合作应用在实际中的目的。
[0006]为解决上述问题,本专利技术所采用的技术方案如下:
[0007]一种基于强化学习的多智能体训练方法,包括以下步骤:
[0008]以足球运动作为研究对象,对强化学习环境进行搭建;
[0009]将足球员抽象为智能体,并对智能体属性值和智能体行为进行设计;
[0010]通过智能体的感知系统进行信息的获取,并将获取到的信息传入智能体的决策系统,群集中的智能体根据传入的信息进行判断,选择对应的状态进行执行;
[0011]基于优化后的传球算法逻辑判断是否传球成功,并在传球成功时,对个人进行奖励,并在进球时,对团体进行奖励;
[0012]在智能体不断与环境交互中,通过神经网络收集每个智能体的行为信息和环境信息,并根据收集到的行为信息和环境信息拟合出每个智能体的期望累积回报函数;
[0013]在强化学习过程中,采用去中心化的训练框架,将N个智能体集中在一起训练,每
个智能体根据各自的期望累积回报函数进行单独决策,并将决策信息存入所述神经网络中,形成一个具有共同目标的联合策略,完成多智能体强化学习;
[0014]其中,在对个人进行奖励时,将传球奖励值减小。
[0015]作为本专利技术优选的实施方式,在对强化学习环境进行搭建时,包括:
[0016]通过栅栏与地面围成简易足球场地,并利用小方块人来代替虚拟人,将两个队的小方块人用不同的颜色进行区别,并在搭建环境时,只运用每个队四个小方块人来进行训练;
[0017]其中,当时间到达训练步数时长或者当有进球队伍时,对场景进行重置。
[0018]作为本专利技术优选的实施方式,在对智能体属性值和智能体行为进行设计时,包括:
[0019]对所述智能体的速度、传球和射门力度、体力以及抢球力度进行设计;
[0020]对所述智能体的移动、持球、抢球、传球、冲刺以及射门进行设计;
[0021]其中,所述智能体属性值包括速度、传球和射门力度、体力以及抢球力度,所述智能体行为包括移动、持球、抢球、传球、冲刺以及射门。
[0022]作为本专利技术优选的实施方式,在对所述智能体的传球和射门进行设计时,包括:
[0023]当进行传球或射门动作时,判断智能体是否为持球状态,若是,则调用球类管理脚本,通过所述球类管理脚本的传入函数传入所需的参数,根据传入的参数,对球施加一个与所述智能体前进方向一致的力,并设置对球操作的队伍属性;
[0024]在对所述智能体的抢球进行设计时,包括:
[0025]进行碰撞检测,判断碰撞到的智能体是否为其他队伍的智能体,若是,则调用球类管理脚本,将持球的智能体状态置为普通状态,并给予球一个无状态属性的队伍ID以及较小的力。
[0026]作为本专利技术优选的实施方式,在通过智能体的感知系统进行信息的获取时,包括:
[0027]将不同的目标定义不同的Tag,在智能体身上发射多条射线,当所发射的射线碰撞到所要传入的目标Tag时,获取该目标的信息,并传入智能体的决策系统;
[0028]其中,在发射多条射线时,包括:
[0029]对所有的目标进行整理,并分成不同类型的组,每个组采用单独的射线检测。
[0030]作为本专利技术优选的实施方式,在基于优化后的传球算法逻辑判断是否传球成功时,包括:
[0031]在进行传球时,判断智能体是否持有球,若是,则调用球类管理脚本,通过所述球类管理脚本的传入函数传入所需的参数,根据传入的参数,进行传球,判断是否碰撞墙壁,若否,则判断接球者是否为队友,若是,则认为传球成功,对个人进行奖励;
[0032]在对团体进行奖励时,包括:
[0033]通过队员类数组存储一个队伍内的所有球员,当进球时,对所述队员类数组内的球员进行遍历,分别进行奖励值赋值,完成团体奖励。
[0034]作为本专利技术优选的实施方式,在根据收集到的行为信息和环境信息拟合出每个智能体的期望累积回报函数时,包括:
[0035]根据马尔可夫决策评估每个智能体的行为是否对整个多智能体系统是否有益,若是,则将所述行为记录下来,进行学习记忆,并在不断的学习记忆过程中拟合出每个智能体的期望累积回报函数。
[0036]作为本专利技术优选的实施方式,在根据马尔可夫决策进行评估时,包括:
[0037]通过定义一个五元组对马尔可夫决策进行描述,所述五元组包括:有限状态集合、有限动作集合、状态转移概率矩阵、奖励函数以及折扣系数;
[0038]其中,所述状态转移概率矩阵,具体如公式1所示:
[0039]P
ass'
=P[S
t+1
=s'|S
t
=s,A
t
=a] (1);
[0040]式中,P代表状态转移概率矩阵,A代表有限动作集合,S代表有限状态集合,对于某一时刻t时,其状态S
t
为s,采取的动作A
t
为a;当t+1时刻时,其状态S
t+1
为s';
[0041]当状态为s,采用动作为a时,所述奖励函数,具体如公式2所示:
[0042][0043]根据权利要求8所述的基于强化学习的多智能体训练方法,其特征在于,所述期望累积回报函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的多智能体训练方法,其特征在于,包括以下步骤:以足球运动作为研究对象,对强化学习环境进行搭建;将足球员抽象为智能体,并对智能体属性值和智能体行为进行设计;通过智能体的感知系统进行信息的获取,并将获取到的信息传入智能体的决策系统,群集中的智能体根据传入的信息进行判断,选择对应的状态进行执行;基于优化后的传球算法逻辑判断是否传球成功,并在传球成功时,对个人进行奖励,并在进球时,对团体进行奖励;在智能体不断与环境交互中,通过神经网络收集每个智能体的行为信息和环境信息,并根据收集到的行为信息和环境信息拟合出每个智能体的期望累积回报函数;在强化学习过程中,采用去中心化的训练框架,将N个智能体集中在一起训练,每个智能体根据各自的期望累积回报函数进行单独决策,并将决策信息存入所述神经网络中,形成一个具有共同目标的联合策略,完成多智能体强化学习;其中,在对个人进行奖励时,将传球奖励值减小。2.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在对强化学习环境进行搭建时,包括:通过栅栏与地面围成简易足球场地,并利用小方块人来代替虚拟人,将两个队的小方块人用不同的颜色进行区别,并在搭建环境时,只运用每个队四个小方块人来进行训练;其中,当时间到达训练步数时长或者当有进球队伍时,对场景进行重置。3.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在对智能体属性值和智能体行为进行设计时,包括:对所述智能体的速度、传球和射门力度、体力以及抢球力度进行设计;对所述智能体的移动、持球、抢球、传球、冲刺以及射门进行设计;其中,所述智能体属性值包括速度、传球和射门力度、体力以及抢球力度,所述智能体行为包括移动、持球、抢球、传球、冲刺以及射门。4.根据权利要求3所述的基于强化学习的多智能体训练方法,其特征在于,在对所述智能体的传球和射门进行设计时,包括:当进行传球或射门动作时,判断智能体是否为持球状态,若是,则调用球类管理脚本,通过所述球类管理脚本的传入函数传入所需的参数,根据传入的参数,对球施加一个与所述智能体前进方向一致的力,并设置对球操作的队伍属性;在对所述智能体的抢球进行设计时,包括:进行碰撞检测,判断碰撞到的智能体是否为其他队伍的智能体,若是,则调用球类管理脚本,将持球的智能体状态置为普通状态,并给予球一个无状态属性的队伍ID以及较小的力。5.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在通过智能体的感知系统进行信息的获取时,包括:将不同的目标定义不同的Tag,在智能体身上发射多条射线,当所发射的射线碰撞到所要传入的目标Tag时,获取该目标的信息,并传入智能体的决策系统;其中,在发射多条射线时,包括:对所有的目标进行整理,并分成不同类型的组,每个组采用单独的射线检测。
6.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在基于优化后的传球算法逻辑判断是否传球成功时,包括:在进行传球时,判断智能体是否持有球,若是,则...

【专利技术属性】
技术研发人员:胡斌莫小山郭慧陆红艳庞怡宁蒙颖姗
申请(专利权)人:梧州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1