用于仿真足球机器人控球的控制方法技术

技术编号:19008641 阅读:128 留言:0更新日期:2018-09-22 08:36
本发明专利技术公开了一种用于仿真足球机器人控球的控制方法,利用tile coding线性函数近似方法降低状态空间维度,足球机器人智能体模块在强化学习中选择Sarsa

Control method for ball control of simulation soccer robot

The invention discloses a control method for simulating the ball control of a soccer robot. The state space dimension is reduced by using tile coding linear function approximation method. The soccer robot agent module selects Sarsa in reinforcement learning.

【技术实现步骤摘要】
用于仿真足球机器人控球的控制方法
本专利技术涉及仿真机器人控制方法,尤其涉及一种仿真足球机器人的控制方法,属于机器学习、智能体控制

技术介绍
强化学习可以看作是一个试探评价过程,智能体在与环境交互的过程中,选择一个动作作用于环境,环境执行动作之后状态发生变化,同时产生一个强化信号(奖励或惩罚)反馈给智能体。智能体则根据强化信号和环境当前的状态再选择下一个动作,选择的原则是使受到正强化的概率(程序中通常用Q值表示)增大,基本原理如图1所示。如图1所示,每一个强化学习中智能体在与环境交互时,每一时刻的事件序列表示如下。1)智能体感知当前的环境状态;2)针对当前的状态和强化信息,智能体选择一个动作执行;3)当智能体所选择的动作作用于环境时,环境发生对应的改变,即环境状态转移至一新状态并给一定的奖赏(强化信号R);4)奖赏信号R反馈给智能体。在这里强化学习主要包含以下四个要素:策略(policy)、回报值(reward)、值函数(valuefunction)与环境模型(modelofenvironment)。策略——即决策函数,是强化学习最重要的部分,并定义了智能体在某一个固定状态时所需要采取的具体动作。回报值——是强化学习的目标,是指智能体在与环境交互过程的,从环境中获取的奖励信号。即环境中的每一个状态(状态-动作对)均对应一个单独的数字-奖赏。是对产生的动作好坏作的一种评价。此标量为正数时代表奖赏,为负数时为惩罚。回报值给智能体下一动作选择提供了参照,其设计间接影响智能体效率,在学习中要不断进行修正来达到奖赏值最大化。值函数——是强化学习研究的关键,对奖惩的一种预测,某一状态下的值函数指的是一个智能体所期望的总的奖赏和。环境模型——表示模拟环境的行为方式,对于某一个状态和在该状态下执行的具体的动作,模型可以预测下一时刻的状态和下一个奖赏值。在众多强化学习算法中,一般分为两类,在策略与离策略。Q学习是一种典型的离策略,而Sarsa(λ)学习是在策略。离策略有一个缺点就是学习最优策略时,会对任意的状态,执行任何动作且不限次数,这就会导致有些时候并不是很好的动作也会被执行。
技术实现思路
本专利技术所要解决的技术问题是:针对
技术介绍
的不足,选择在策略中Sarsa(λ)算法进行智能体学习探索,提出一种仿真足球机器人的控制方法。本专利技术为解决上述技术问题采用以下技术方案:一种用于仿真足球机器人控球的控制方法,利用tilecoding线性函数近似方法降低状态空间维度,智能体在强化学习中选择Sarsa(λ)算法,对策略进行在线打分,以高分优先选择的原则训练选择一个最优策略,具体包括步骤如下:步骤(1)、对于起始状态,随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a),观察当前状态s,基于Q值的策略选择一个行为a;步骤(2)、对每个智能体模块内部进行Q(s,a)值更新,得到下一个状态s',并观察奖赏值r;根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a';步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')-Q(s,a)e(s,a)←e(s,a)+1;其中,e(s,a)为资格迹,规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量,γ是折扣率,α是步长,λ是衰减率;步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a");步骤(5)、更新下一个状态与行为:s←s′a←a′步骤(6)、重复步骤(2)-(5);对于每一个状态s和行为a,每当接收到一个新的奖赏就更新Q(s,a)。进一步,本专利技术所提出的一种用于仿真足球机器人控球的控制方法,所述tilecoding线性函数近似方法使用一维tiling,即在每个状态变量单独的使用一个间隔;对每个状态变量有32个tiling,则每个tiling偏移另一个tiling的1/32个片宽度,所有活动的片组成了特征集合Fa,对于3v2情况,有13个状态变量,32个tiling,则每个特征向量有13*32=416个片。进一步,本专利技术所提出的一种用于仿真足球机器人控球的控制方法,其中θ为主要的存储矢量。进一步,本专利技术所提出的一种用于仿真足球机器人控球的控制方法,作为控球球员的智能体模块的奖赏值,即其回报值具体如下:R=CurrentTime-LastActionTime式中,CurrentTime表示当前周期,LastActionTime表示上次执行学习动作的周期。进一步,本专利技术所提出的一种用于仿真足球机器人控球的控制方法,所述回报值是在等待若干个周期后,直到从手工策略转到执行强化学习策略时,才得到上次强化学习选择的动作的回报值。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术基于Sarsa(λ)算法来应用强化学习,在keepaway上实验,在一个小的任务中保持球员可长时间控球,达到高持球率,使用Sarsa(λ)算法来学习最优策略,以此来加大多智能体之间传球协作策略或可找到合适的机会射门策略,加大得分胜率。附图说明图1是强化学习基本原理图。图2是3v2的状态变量球员示意图。图3是两个状态变量重叠的Tiling图。具体实施方式下面结合附图对本专利技术的技术方案做进一步的详细说明:本
技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。在策略学习智能体即将执行策略的值,包括探索步数,以便可以迭代提升性能。因此在本专利技术中,智能体学习探索采用Sarsa(λ)算法来学习,首先Sarsa算法名字来源于运用“状态→行为→回报→状态→行为(State→Action→Reward→State→Action)”经验来更新Q值,是一个在策略增强学习算法,它估计的是即将执行策略的值。Sarsa经验的形式为(s,a,s',a'),意思是:Agent在状态s,执行行为a,接受回报值r,结束于状态s',并由此决定执行行为a',该经验提供了一个用以更新Q(s,a)的新值,即r+γQ(s',a')。而Sarsa(λ)是Sarsa的一种变形方法,该算法规定对于每一个状态s和行为a,每当接收到一个新的奖赏就更新Q(s,a),但仅仅更新那些资格大于某个阈值的不仅更高效,而且准确率的损失也很小。具体描述如下:Sarsa(λ,S,A,γ,α)输入:S是状态的集合,A是行为的集合,γ是折扣率,α是步长,λ是衰减率。内部状态:实值数组Q(s,a)与e(s,a),前一状态s,前一行为a。begin:随机初始化Q(s,a)对于所有的s、a,初始化e(s,a)=0观察目前的状态s利用一个基于Q的策略选择arepeatforever:执行行为a观察奖赏r和状态s'利用一个基于Q的策略选择a'δ←r+γQ(s',a')-Q(s,a)e(s,a)←e(s,a)+1Fallalls",a"Q(s",a")←Q(s"本文档来自技高网
...
用于仿真足球机器人控球的控制方法

【技术保护点】
1.一种用于仿真足球机器人控球的控制方法,其特征在于,利用tile coding线性函数近似方法降低状态空间维度,智能体在强化学习中选择Sarsa(λ)算法,对策略进行在线打分,以高分优先选择的原则训练选择一个最优策略,具体包括步骤如下:步骤(1)、对于起始状态,随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a),观察当前状态s,基于Q值的策略选择一个行为a;步骤(2)、对每个智能体模块内部进行Q(s,a)值更新,得到下一个状态s',并观察奖赏值r;根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a';步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')‑Q(s,a)e(s,a)←e(s,a)+1;其中,e(s,a)为资格迹,规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量,γ是折扣率,α是步长,λ是衰减率;步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值,表示为:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a");步骤(5)、更新下一个状态与行为,表示为:s←s′a←a′步骤(6)、重复步骤(2)‑(5);对于每一个状态s和行为a,每当接收到一个新的奖赏就更新Q(s,a)。...

【技术特征摘要】
1.一种用于仿真足球机器人控球的控制方法,其特征在于,利用tilecoding线性函数近似方法降低状态空间维度,智能体在强化学习中选择Sarsa(λ)算法,对策略进行在线打分,以高分优先选择的原则训练选择一个最优策略,具体包括步骤如下:步骤(1)、对于起始状态,随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a),观察当前状态s,基于Q值的策略选择一个行为a;步骤(2)、对每个智能体模块内部进行Q(s,a)值更新,得到下一个状态s',并观察奖赏值r;根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a';步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')-Q(s,a)e(s,a)←e(s,a)+1;其中,e(s,a)为资格迹,规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量,γ是折扣率,α是步长,λ是衰减率;步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值,表示为:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a");步骤(5)、更新下一个状态与行为,表示为:s←s′a←a′步骤(6)、重复步...

【专利技术属性】
技术研发人员:粱志伟胡丽娟
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1