一种基于强化学习的足球机器人协作方法技术

技术编号:21189573 阅读:52 留言:0更新日期:2019-05-24 22:39
本发明专利技术公开了一种基于强化学习的足球机器人协作方法,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作;本发明专利技术通过在建立的强化学习基本模型设立奖惩机制,实现足球机器人可根据当前环境和奖惩机制来选择下一动作,并且通过足球机器人相互之间的通讯来进行学习和更新,有效提升了足球机器人的协作效率。

A Soccer Robot Collaboration Method Based on Reinforcement Learning

The invention discloses a soccer robot cooperation method based on reinforcement learning, which includes: S1, building a basic model of reinforcement learning of soccer robot based on Salsa (lambda) algorithm with communication, and setting reward and punishment mechanism r of the basic model of reinforcement learning; S2, defining a specified number of state variables based on distance and angle between soccer robots; S3, setting foot; The soccer robot chooses the next action based on the reward and punishment mechanism r, the state variable and the communication between the soccer robots; The present invention realizes that the soccer robot can choose the next action according to the current environment and the reward and punishment mechanism by establishing the reward and punishment mechanism in the basic model of reinforcement learning, and through the mutual communication between the soccer robots. Communication for learning and updating effectively improves the efficiency of soccer robot cooperation.

【技术实现步骤摘要】
一种基于强化学习的足球机器人协作方法
本专利技术属于足球机器人领域,具体涉及一种基于强化学习的足球机器人协作方法。
技术介绍
足球机器人对抗赛作为一个典型的多足球机器人系统,它为智能理论研究及多种技术的集成应用提供了良好的实验平台,对足球机器人在运动过程中能够根据周围环境的变化而自主的采取相应措施的能力要求也越来越强,这涉及到机器人定位、路径规划、协调控制、目标追踪及决策等一系列研究课题。近年来,许多学者专家研究出了不少的成果,例如,申请号为201120008202.2的中国专利公开了一种智能机器人比赛装置,包括机械部分和电路控制部分,机械部分包括球桌、控制台和机器人,电路控制部分包括位于控制上的控制模块和位于机器人上的受控模块,可以形成对抗比赛场面;申请号为201010175496.8的中国专利公开了一种机器人教育平台,其包括一个箱体、该箱体内设置衣服机械组建、传感器单元、控制单元、执行单元、接口转换单元、任务软件光盘和电源模块,适应于课堂教学的各种实验;申请号为200410016867.2的中国专利公开了一种足球机器人嵌入式直接驱动装置,针对现有自主式机器人转动部分的不足,提供了一种足球机器人驱动装置,结构紧凑调试灵活,使机器人具有快速移动、定位精确、抗冲击、对抗性强的功能;申请号为201120313058.3的中国专利公开了一种室内足球机器人双目视觉导航系统,采用全局红外视觉定位方式,结合传感器信息,实现了室内移动机器人高精度的定位与导航的室内足球机器人双目视觉导航,但它仅适用于障碍物固定且环境较稳定,单一机器人操作的情况。从现有技术看,主要有机器人平台机械结构的设计、机器人驱动装置的改造、固定环境或单一的机器人的运动控制,未见到可应用于足球机器人对抗型比赛的协调与合作控制案例,而且,现有的足球机器人比赛中,经常会出现足球机器人在足球场场地上找不到自己的位姿而自转运动的现象,经常会错失一些进球的机会,延缓了进球的速度。
技术实现思路
针对上述现有技术中在足球机器人比赛中足球机器人互相之间协作效率低的问题,本专利技术于提出一种基于强化学习的足球机器人协作方法,该方法通过结通过基于基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,通过强化学习模型及足球机器人相互间的通讯来实现相互间的高协作效率,具体技术方案如下:一种基于强化学习的足球机器人协作方法,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。进一步的,所述足球机器人包括进攻端机器人和防守端机器人,所述状态变量的数量基于所述进攻端机器人和防守端机器人的总和来设定。进一步的,所述方法还包括:所述进攻端机器人或所述防守端机器人中指定足球机器人通过所述Sarsa(λ)算法与剩余足球机器人通讯,通过所述通讯广播自身的状态和动作消息。进一步的,所述奖惩机制r为:进一步的,所述可操作动作集包括传球、带球和射门三种。本专利技术的基于强化学习的足球机器人协作方法,应用于包含有进攻端机器人和防守端机器人的足球机器人比赛中,对于进攻端的所有足球机器人或者防守端的所有足球机器人,先基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并在强化学习基本模型中设立足球机器人的基本动作集和奖惩机制,同时根据足球机器人的数量设定指定数目的状态变量;然后,足球机器人可根据通过奖惩机制和自身所处环境以及与其他足球机器人之间的通讯信息来选择在足球比赛中的执行动作,从而实现足球机器人相互之间的协作;与现有技术相比,本专利技术可有效提升足球机器人的协作效率,提升足球机器人比赛的可观赏性。附图说明图1是本专利技术实施例中所述基于强化学习的足球机器人协作方法的流程框图示意;图2是本专利技术实施例中所述强化学习基本模型的结构图示意;图3是采用本专利技术方法的实施例中球员的状态变量示意图;图4是采用本专利技术方法在HFO平台的仿真实验图示意;图5(a)和图5(b)是本专利技术实施例中足球机器人具有通讯和没有通讯的协作效率实验结果对比图示意;图6是本专利技术实施例中足球机器人有无通讯的学习性能对比图示意;图7是本专利技术实施例中不同足球机器人之间相互通讯的学习性能对比图示意。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。实施例一参阅图1,在本专利技术实施例中,提供了一种基于强化学习的足球机器人协作方法,具体包括方法:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定强化学习基本模型的奖惩机制r。参阅图2,从中可知,强化学习基本模型的原理为:足球机器人在感知当前环境的状态下选择动作,此时环境状态迁移到新的状态,相应的,新的状态产生一个强化信号反馈给足球机器人,足球机器人根据当前环境信息与强化信号决定下一个行动;其中,本专利技术中足球机器人强化学习的关键包括:策略:强化学习代理的一个关键组成部分,提供控制欣慰到环境感知状态的映射;值函数:也称为回报值。对利用现存策略得出的行为进行评判,并估测当前状态的表现,这种状态是对按照当下策略采取行为的一种反应;值函数通过持续不断的改正来修正策略;奖惩值:用来估测一次控制行为产生的环境感知状态的瞬时期望,即足球机器人在某状态下产生的动作会得到对应的奖惩值,当符合期望时给予正的奖惩值,当不符合期望值时给予负的奖惩值;环境模型:在考虑到未来的可能情况下,预测未来行动方案的一种规划工具。在本专利技术实施例中,足球机器人在强化学习基本模型的学习过程中,足球机器人可不断尝试选择动作,由环境提供的强化信号对动作好坏的一种评价,而不是传递给系统如何去产生正确动作的消息;同时,由于外部环境调整动作的信息很少,足球机器人的强化学习系统必须依靠自身的经历进行学习,通过强化信号调整动作的评价值,最终足球机器人可以获得最优策略,即如何协作来达到进球的得分的目的。本专利技术采用的Sarsa(λ)算法是对Sarsa算法的一种变形,其中,Sarsa算法的具体工作原理为:首先Sarsa算法名字来源于运用“状态(State)→动作(Action)→奖惩(Reward)→状态(State)→动作(Action)”经验来更新Q值,Q值为即将执行策略的值;Sarsa经验的形式为(s,a,s',a'),意思是:Agent在当前状态s下,执行动作a,接受奖惩值r,结束于状态s',并由此决定执行动作a',Sarsa的经验(s,a,s',a')提供了一个用以更新Q(s,a)的新值,即r+γQ(s',a');由于Sarsa(λ)算法是对Sarsa算法的一种变形可知,Sarsa(λ)算法规定对于每一个状态s和动作a,每当接收到一个新的奖惩就更新Q(s,a)但仅仅更新那些资格大于某个阈值的不仅更高效,而且准确率的损失很小,Sarsa(λ)算法的具体原理为:Sarsa(λ,S,A,γ,α)输入:S是状态的集合,A是动作的集合,γ是折扣率,α是步长,λ是衰减本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的足球机器人协作方法,其特征在于,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。

【技术特征摘要】
1.一种基于强化学习的足球机器人协作方法,其特征在于,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。2.如权利要求1所述的基于强化学习的足球机器人协作方法,其特征在于,所述足球机器人包括进攻端机器人和防守端机器人,所述...

【专利技术属性】
技术研发人员:胡丽娟梁志伟李汉辉
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1