【技术实现步骤摘要】
一种基于强化学习算法的多机器人协作方法
[0001]本专利技术涉及协作控制领域,尤其涉及一种基于强化学习算法的多机器人协作方法
。
技术介绍
[0002]多智能体的协作控制被广泛应用,其中比较经典的案例就是机器人仿真足球比赛,机器人仿真足球研究现状:目前主要使用手工决策方法对球队的策略进行优化,手工决策是指通过观看比赛录像发现球队的漏洞,并修改对应的底层模块代码来调整球队策略
。
但手工决策方法的实施需要在特定的比赛环境,对随时变化的球场情形适应性差,由于比赛环境的多变性和复杂性,在每个阶段使用手工决策的攻防策略并不现实,球员
Agent
必须要有对比赛环境的学习和适应能力
。
技术实现思路
[0003]有鉴于此,为了解决现有机器人协作方法中无法在多变的球场场景中实时调整策略,进而导致球员
Agent
之间攻防协作效率低的问题,本专利技术提出一种基于强化学习算法的多机器人协作方法,所述方法包括以下步骤:
[0004]以加入资格迹
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习算法的多机器人协作方法,其特征在于,包括以下步骤:以加入资格迹
Q
‑
learning
η
算法为协作决策基础;设计状态变量,所述状态变量包括球员与球的位置坐标
、
球员的持球状态;基于球员所执行的动作集构建动作函数;构建球员在不同状态下在球场不同区域的基础奖惩值和球员之间的奖惩值
。2.
根据权利要求1所述一种基于强化学习算法的多机器人协作方法,其特征在于,所述基于球员所执行的动作集构建动作函数这一步骤,其具体包括:将球员分类为进攻球员
、
防守球员和守门员;根据球员与球的位置坐标
、
球员的持球状态,确定策略;根据策略,控制不同类型的球员执行动作
。3.
根据权利要求2所述一种基于强化学习算法的多机器人协作方法,其特征在于,进攻球员的动作函数具体如下:当进攻球员持球,作为持球者,选择执行动作,包括传球
、
带球和射门;
K2
球员向球的位置移动,
K2
球员表示距离球最近的我方辅助进攻球员;除持球者和
K2
球员的其余进攻球员,维持预设阵型位置
。4.
根据权利要求2所述一种基于强化学习算法的多机...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。