【技术实现步骤摘要】
一种基于强化学习的足球机器人带球策略选择方法
本专利技术涉及足球机器人运动
,尤其是涉及一种基于强化学习的足球机器人带球策略选择方法。
技术介绍
在RoboCup标准平台组比赛中,带球是一种复杂的行为,在此期间,机器人球员试图以非常受控的方式操纵球,同时朝向期望的目标移动。对于双足机器人,需要考虑球,机器人和地面之间的相互作用,以得到前向,横向和转动三个方向上的速度,这使得该任务具有高度动态的和非线性的特征。由此,目前的技术方案中,带球行为大多通过定速度、定角度去控制球,也就是说,机器人以预先给定好的速度去与球进行交互,无论机器人,足球,目标点三者之间呈何种关系,机器人总以给定的转角速度和横向移动的速度调整至三点一线,然后带球去往目标点,整个过程中,速度始终为恒定值,在整个带球过程中,三个方向的速度并不能更改,也没有进行协调。目前的技术方案既不能保证最快地将球带往目标点,也不能保证在整个过程中始终将球控制在合适的距离内。此外,目前技术方案中大多采用将球场分割化的方式为足球机器人建立状态空间,这样巨大的状态空间需要大量的 ...
【技术保护点】
1.一种基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法包括下列步骤:/n1)构建足球机器人-球-目标位置模型;/n2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;/n3)对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;/n4)分别对各个独立学习者进行训练,同时采用频率调整学习方法使 ...
【技术特征摘要】
1.一种基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法包括下列步骤:
1)构建足球机器人-球-目标位置模型;
2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;
3)对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;
4)分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。
2.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤1)中,采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
3.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数,,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标。
4.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤2)具体包括以下步骤:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
5.根据权利要求4所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述共同目标设为最大化速度Vx,最小化参数α,β,Vy、Vz,同时对足球机器人与球之间的距离ρ限制其满足ρ<ρth,ρth为使球始终保持在距离机器人的设定距离阈值,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,β为足球机器人-球-目标角度的补角,α为足球机器人与球之间的角度。
6.根据权利要求4所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述个体目标包括:调整球的方向:使足球机器人与球之间的角度保持为0;对球:保持足球机器人-球-目标角度的补角β为0;推球:令足球机器人在保持球的控制的同时,快速行走并击球以改变其速度,使足球机器人朝x方向运动的速度Vx在稳定行走的速度区间...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。