【技术实现步骤摘要】
一种基于强化学习的多智能体训练方法及系统
[0001]本专利技术涉及多智能体训练
,具体涉及一种基于强化学习的多智能体训练方法及系统。
技术介绍
[0002]多智能体系统可用于解决机器人系统、分布式决策、交通控制和商业管理等领域的问题。虚拟人群集作为一种典型的、复杂的多智能体系统,在进行独立执行的单体智能的同时,也可以进行群体协作的群集智能。多智能体的强化学习是虚拟人群集行为研究领域中的一个重要分支,将强化学习技术、博弈论等充分应用到多智能体系统,使得多个智能体在更高维且动态的真实场景中通过交互和决策完成错综复杂的计算机任务。虚拟人群集的仿真,主要包括实时绘制技术、运动控制技术和行为控制技术,体现了人类的基础行为能力。
[0003]强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习在计算机视觉、环境情景化的决策场景等人工智能领域都有诸多的应用。
[0004]多智能体强化学习是强化学习框架下的一个子分类,也是传统单智能体强化学习方法拓展与延伸。与集中进行决策的单智能体不同的是,在虚拟人群集协作当中的多智能体系统的每个智能之间都会存在竞争和协同等多种复杂性的关系。为了更好地将多智能体协同合作应用在实际中,就必须解决虚拟人群集中智能体间的合作与竞争关系。
技术实现思路
[0005]为了克服现有技术的不足,本专利技术提供一种基于强化学习的多智能体训练方法及系统, ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的多智能体训练方法,其特征在于,包括以下步骤:以足球运动作为研究对象,对强化学习环境进行搭建;将足球员抽象为智能体,并对智能体属性值和智能体行为进行设计;通过智能体的感知系统进行信息的获取,并将获取到的信息传入智能体的决策系统,群集中的智能体根据传入的信息进行判断,选择对应的状态进行执行;基于优化后的传球算法逻辑判断是否传球成功,并在传球成功时,对个人进行奖励,并在进球时,对团体进行奖励;在智能体不断与环境交互中,通过神经网络收集每个智能体的行为信息和环境信息,并根据收集到的行为信息和环境信息拟合出每个智能体的期望累积回报函数;在强化学习过程中,采用去中心化的训练框架,将N个智能体集中在一起训练,每个智能体根据各自的期望累积回报函数进行单独决策,并将决策信息存入所述神经网络中,形成一个具有共同目标的联合策略,完成多智能体强化学习;其中,在对个人进行奖励时,将传球奖励值减小。2.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在对强化学习环境进行搭建时,包括:通过栅栏与地面围成简易足球场地,并利用小方块人来代替虚拟人,将两个队的小方块人用不同的颜色进行区别,并在搭建环境时,只运用每个队四个小方块人来进行训练;其中,当时间到达训练步数时长或者当有进球队伍时,对场景进行重置。3.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在对智能体属性值和智能体行为进行设计时,包括:对所述智能体的速度、传球和射门力度、体力以及抢球力度进行设计;对所述智能体的移动、持球、抢球、传球、冲刺以及射门进行设计;其中,所述智能体属性值包括速度、传球和射门力度、体力以及抢球力度,所述智能体行为包括移动、持球、抢球、传球、冲刺以及射门。4.根据权利要求3所述的基于强化学习的多智能体训练方法,其特征在于,在对所述智能体的传球和射门进行设计时,包括:当进行传球或射门动作时,判断智能体是否为持球状态,若是,则调用球类管理脚本,通过所述球类管理脚本的传入函数传入所需的参数,根据传入的参数,对球施加一个与所述智能体前进方向一致的力,并设置对球操作的队伍属性;在对所述智能体的抢球进行设计时,包括:进行碰撞检测,判断碰撞到的智能体是否为其他队伍的智能体,若是,则调用球类管理脚本,将持球的智能体状态置为普通状态,并给予球一个无状态属性的队伍ID以及较小的力。5.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在通过智能体的感知系统进行信息的获取时,包括:将不同的目标定义不同的Tag,在智能体身上发射多条射线,当所发射的射线碰撞到所要传入的目标Tag时,获取该目标的信息,并传入智能体的决策系统;其中,在发射多条射线时,包括:对所有的目标进行整理,并分成不同类型的组,每个组采用单独的射线检测。
6.根据权利要求1所述的基于强化学习的多智能体训练方法,其特征在于,在基于优化后的传球算法逻辑判断是否传球成功时,包括:在进行传球时,判断智能体是否持有球,若是,则...
【专利技术属性】
技术研发人员:胡斌,莫小山,郭慧,陆红艳,庞怡宁,蒙颖姗,
申请(专利权)人:梧州学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。