当前位置: 首页 > 专利查询>浙江大学专利>正文

基于深度强化学习的小型足球机器人主动控制吸球方法技术

技术编号:22380059 阅读:54 留言:0更新日期:2019-10-29 04:32
本发明专利技术公开了一种基于深度强化学习的小型足球机器人主动控制吸球方法,包括步骤:S1:为小型足球机器人主动控制吸球任务定义深度强化学习框架;S2:机器人在实际或者仿真的条件下,不断与环境交互,把与环境交互获得的数据存放在经验池中;S3:每次采样经验池中的一小批样本,使用深度强化学习的方法对深度神经网络进行学习训练;S4:据训练好的深度神经网络模型,使小型足球机器人完成主动控制吸球任务。本发明专利技术使用深度强化学习来对小型足球机器人吸球过程进行控制,从而使机器人能够通过与环境交互来自主调节,不断提高吸球的效果。本发明专利技术可以提高机器人吸球的稳定性与成功率,同时防止因为电机输出力矩过大而造成电机过热损坏。

【技术实现步骤摘要】
基于深度强化学习的小型足球机器人主动控制吸球方法
本专利技术涉及机器人智能控制领域,尤其涉及一种基于深度强化学习的小型足球机器人主动控制吸球方法。
技术介绍
小型足球机器人组(SmallSizeLeague)是足球机器人世界杯(RoboCup)中的一个重要赛别。在比赛中,机器人可以利用其前端的吸球电机带动滚筒旋转,滚筒与球摩擦,使球获得一个朝向机器人的外力,起到“吸球”的作用。在吸球的过程中,如果电机输出的力矩太大,长时间会造成电机过热损坏,同时也会让球在滚筒与地面之间来回振动,在机器人运动的过程中球很可能脱落;如果电机输出的力矩太小,将无法吸住静止在地面上的球或者向滚筒运动的球。在小型足球机器人组的国际领先队伍中,大部分使用的方法都是让吸球电机输出恒定的速度或者恒定的力矩这样的开环控制方法。这些简单的方法无法适应不同的吸球条件,无法根据吸球的情况做出调整以提高吸球的效果。如果使用闭环控制,目前为止,比较常用的控制器有PID控制器,PID控制器实现简单,但是也有较大的局限性。PID控制器是一个线性控制器,要求环境为近似线性,但是小型足球机器人吸球系统是一个复杂的、非线性的、时变的系统本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的小型足球机器人主动控制吸球方法,其特征在于,所述方法包括以下步骤:S1:设定小型足球机器人主动控制吸球任务的深度强化学习框架;S2:在实际或者仿真的条件下,小型足球机器人不断与环境交互,然后把与环境交互获得的数据存放在经验池中;S3:每次采样经验池中的一批样本,使用深度强化学习的方法对深度神经网络进行学习训练;S4:根据训练好的深度神经网络模型,使小型足球机器人完成主动控制吸球任务。

【技术特征摘要】
1.一种基于深度强化学习的小型足球机器人主动控制吸球方法,其特征在于,所述方法包括以下步骤:S1:设定小型足球机器人主动控制吸球任务的深度强化学习框架;S2:在实际或者仿真的条件下,小型足球机器人不断与环境交互,然后把与环境交互获得的数据存放在经验池中;S3:每次采样经验池中的一批样本,使用深度强化学习的方法对深度神经网络进行学习训练;S4:根据训练好的深度神经网络模型,使小型足球机器人完成主动控制吸球任务。2.根据权利要求1所述的一种基于深度强化学习的小型足球机器人主动控制吸球方法,其特征在于,所述的步骤S1中,深度强化学习框架具体如下:S11:定义小型足球机器人的状态s为滚筒的倾斜角度;定义机器人的动作a为吸球电机输出的力矩;S12:定义小型足球机器人吸球任务的回报函数r,其计算公式如下:r=rtorque+roffset+rball其中rtorque为根据电机输出力矩torque确定的回报,用于确保电机不会过热损坏;T0为常量,代表能够刚好吸住球的最小力矩;k为正的常量,用于控制这部分回报的权重;其中roffset为吸住球后滚筒前后振动偏移的角度θ得到的回报;m和n为正的常量,m用于控制这部分回报的权重,n用于控制对偏移角度θ的敏感程度;其中rball为根据机器人吸住球后球不掉落设置的回报,c是一个正的常量,代表球掉落后获得的惩罚;S13:定义深度强化学习算法为TD3算法,其深度神经网络结构包括:两个结构相同的值网络Q1、Q2和拥有相同结构的目标值网络Q1_target、Q2_target,网络各层依次是:状态s和动作a输入层,两个全连接层,一个值输出层,各个层之间的激活函数为LeakyReLU函数;一个策略网络μ和拥有相同结构的目标策略网络μtarget,网络各层依次是:状态s输入层,两个全连接层,一个动作a的输出层,各个层之间的激活函数为LeakyReLU函数,输出层的激活函数为tanh函数,并把tanh函数输出的范围从(-1,1)按比例缩放到电机允许输出的最小力矩值alow和最大力矩值ahigh之间,即(alow,ahigh);四个值函数网络Q1、Q2、Q1_target、Q2_target与两个策略网络μ、μtarget的参数初始化采用Xavier方法,其中Q1网络与Q1_target网络的参数完全相同,Q2网络与Q2_target网络的参数完全相同,μ网络与μtarget网络的参数完全相同。3.根据权利要求2所述的一种基于深度强化学习的小型足球机器人主动控制吸球方法,其特征在于,所述的步骤S2具体实现步骤如下:S21:在实际或者仿真的条件下,使小型足球机器人不断与环境交互;在交互过程中,不断获取S11中定义的机器人状态s,把s作为S13中目标策略网络μtarget的输入,得到输出的动作a′...

【专利技术属性】
技术研发人员:王云凯陈泽希黄哲远李佳诚熊蓉
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1