The invention discloses a soccer robot cooperation method based on reinforcement learning, which includes: S1, building a basic model of reinforcement learning of soccer robot based on Salsa (lambda) algorithm with communication, and setting reward and punishment mechanism r of the basic model of reinforcement learning; S2, defining a specified number of state variables based on distance and angle between soccer robots; S3, setting foot; The soccer robot chooses the next action based on the reward and punishment mechanism r, the state variable and the communication between the soccer robots; The present invention realizes that the soccer robot can choose the next action according to the current environment and the reward and punishment mechanism by establishing the reward and punishment mechanism in the basic model of reinforcement learning, and through the mutual communication between the soccer robots. Communication for learning and updating effectively improves the efficiency of soccer robot cooperation.
【技术实现步骤摘要】
一种基于强化学习的足球机器人协作方法
本专利技术属于足球机器人领域,具体涉及一种基于强化学习的足球机器人协作方法。
技术介绍
足球机器人对抗赛作为一个典型的多足球机器人系统,它为智能理论研究及多种技术的集成应用提供了良好的实验平台,对足球机器人在运动过程中能够根据周围环境的变化而自主的采取相应措施的能力要求也越来越强,这涉及到机器人定位、路径规划、协调控制、目标追踪及决策等一系列研究课题。近年来,许多学者专家研究出了不少的成果,例如,申请号为201120008202.2的中国专利公开了一种智能机器人比赛装置,包括机械部分和电路控制部分,机械部分包括球桌、控制台和机器人,电路控制部分包括位于控制上的控制模块和位于机器人上的受控模块,可以形成对抗比赛场面;申请号为201010175496.8的中国专利公开了一种机器人教育平台,其包括一个箱体、该箱体内设置衣服机械组建、传感器单元、控制单元、执行单元、接口转换单元、任务软件光盘和电源模块,适应于课堂教学的各种实验;申请号为200410016867.2的中国专利公开了一种足球机器人嵌入式直接驱动装置,针对现有自主式机器人转动部分的不足,提供了一种足球机器人驱动装置,结构紧凑调试灵活,使机器人具有快速移动、定位精确、抗冲击、对抗性强的功能;申请号为201120313058.3的中国专利公开了一种室内足球机器人双目视觉导航系统,采用全局红外视觉定位方式,结合传感器信息,实现了室内移动机器人高精度的定位与导航的室内足球机器人双目视觉导航,但它仅适用于障碍物固定且环境较稳定,单一机器人操作的情况。从现有技术看,主要有机器人 ...
【技术保护点】
1.一种基于强化学习的足球机器人协作方法,其特征在于,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。
【技术特征摘要】
1.一种基于强化学习的足球机器人协作方法,其特征在于,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。2.如权利要求1所述的基于强化学习的足球机器人协作方法,其特征在于,所述足球机器人包括进攻端机器人和防守端机器人,所述...
【专利技术属性】
技术研发人员:胡丽娟,梁志伟,李汉辉,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。