基于迁移强化学习的VEX机器人路径规划方法技术

技术编号:38333420 阅读:8 留言:0更新日期:2023-08-02 09:14
机器人执行任务时需要具备移动控制和路径规划的能力,其中合理的路径规划能够降低时间成本、提高工作效率。针对传统路径规划在不同任务之间学习经验难以迁移的问题,本发明专利技术提出一种基于迁移强化学习的VEX机器人路径规划方法,首先,用栅格法对当前比赛场地进行划分,智能体使用强化学习设计单场比赛的最优路径,获得学习经验;接着,智能体使用迁移强化学习重用源任务的先验经验,将之迁移到下一个比赛,从而缩短了新场地的路径搜索时间。“合纵连横”和“一触即发”比赛下的仿真结果表明,相比于传统的A*算法、Dijkstra算法,本方法在降低模型训练时间的同时提高了路径规划的准确性,有效解决了高相关性路径规划任务之间的经验共享问题。共享问题。共享问题。

【技术实现步骤摘要】
基于迁移强化学习的VEX机器人路径规划方法


[0001]本专利技术是一种AI技术在VEX机器人竞赛的应用方法,具体是基于迁移强化学习的VEX机器人路径规划方法。

技术介绍

[0002]信息化与智能化的时代潮流推动着机器人技术的飞速发展,机器人被广泛应用于各类工业、农业、医疗居家服务以及军事科考等重要领域。目前,机器人技术被众多国家列为重点发展的一项高新技术,并且相关产业是衡量综合国力强弱的重要标志[1]。为了主动适应国际新技术发展的形势,开创新型的智能产业模式,教育部从2017年2月开始积极推进新工科建设,目标是培养造就一批创新型工程科技人才,增强高新科技的国际竞争力[2]。特别是机器人的不断普及和应用,急需大量从事研究和实践复杂多样应用场景的机器人技术工程师。机器人竞赛因其具有前沿性、综合性、实践性等优点,成为了培养创新型人才的主要手段和重要突破口。
[0003]VEX是美国太空总署、美国易安信公司、亚洲机器人联盟雪佛龙、德州仪器、诺斯罗普
·
格鲁曼公司和其他美国公司共同大力支持的机器人项目。比赛由十五秒的自主时间和一分四十五秒的操作手控制时间组成。比赛目标是通过机器人将得分物移动到规定区域来达到比对方联队更高的分数。若要在自动程序阶段获得尽可能高的分数,则设计合理的机器人最优路径规划尤为重要。
[0004]机器人路径规划的目标是在一个有障碍物的空间中快速规划出一条无碰撞的最优路径,使机器人能平滑、稳定地从起始地到达目标地[3]。路径规划算法有传统的A*算法[4]、Dijkstra算法[5]、人工势场法[6]等以及基于进化算法的遗传算法[7]、粒子群算法[8]、蚁群算法[9]等。其中传统算法需要对复杂的规划空间和障碍物进行精确地建模,并且环境越复杂,规划效率越低;进化算法虽学习能力强,但实时性差、计算量大且易于陷入局部最优解。针对传统算法存在的问题,研究者利用强化学习(Reinforcement Learning,RL)引导机器人在未知环境状态中不断与环境交互,通过试错寻找更准确的移动方向。强化学习无需先验知识,根据感知到的环境信息选择动作,再结合奖励判断动作价值,指导机器人正确执行设计的任务,因而非常适合于机器人路径规划的自主学习。文献[10]提出了一种全局引导强化学习方法(G2RL),当机器人遇到障碍物时无需重新调用强化学习寻找替代路径,而是利用已学习的全局经验以分布式响应的方式解决机器人路径规划问题。实验结果表明,G2RL在不同的地图类型、障碍物密度下均具有良好的路径寻优性能。文献[11]提出了一种能量感知覆盖路径规划(CTPP)框架,该框架根据机器人的移动学(包括变换、平移和定向动作)和所需能量来设计强化学习的动作空间和奖励函数,并且经过模型训练获得了以最少能量和时间从源地点到目标地点的最优路径。考虑包含静态和动态障碍物的最优路径,文献[12]提出了一种将ε

贪婪策略与模拟退火冷却调度控制相结合的动作选择策略,结合启发式奖励函数解决了未知环境下探索

利用的难题。同时,在实际机器人操作系统(ROS)下提高了无碰撞路径规划的全局搜索性能和学习效率。
[0005]上述文献设计了单一场景下多种基于强化学习的路径规划方法。注意到VEX机器人竞赛中相同赛季的比赛规则和场地设置具有一致性,不同赛季的比赛规则和场地设置具有相似性。为了提高多种赛制中自动程序阶段的路径规划效率,赛队中程序员需要重用学习经验,将之在不同比赛之间进行迁移。迁移学习(Transfer Learning,TL)[12]利用事先学习的知识和技能,能够在小样本情况下训练模型来实现新任务的快速求解,同时提升模型的鲁棒性和泛化性。文献[13]设计了一种基于协方差矩阵自适应进化策略的动态近端策略优化方法。在训练阶段,训练机器人学习能够避开障碍物的策略;在测试阶段,利用迁移学习将训练参数转移到新环境作为初始参数来探寻最优路径,大大减少了训练深度网络所需的计算时间。将迁移学习引入强化学习,研究者获得了一种新的深度学习模

迁移强化学习(Transfer Reinforcement Learning,TRL)[14][15],该模型可以降低多种相关场景下强化学习的训练时间。在Open AI健身房的实际场景下,文献[16]尝试应用强化学习在火灾蔓延情况下生成最优疏散路径。首先在91个房间的建筑体上测试训练好的深度Q学习(Deep Q

Learning,DQL)模型,然后利用迁移学习将学习经验迁移至其他大型复杂建筑体上,使得DQL可以在较大的操作空间中加速探索到最优疏散路径。文献[17]采用迁移学习设计了一种适应动态环境的机器人快速路径规划方法。首先在静态环境下对Q网络进行预训练;接着将训练后的参数作为新环境下Q网络的初始参数,通过参数微调将训练收敛时间从1033回合缩短到450回合,在保证路径规划准确率的同时加快了训练速度。文献[18]提出了一种基于改进Q

learning的迁移学习算法来解决机器人路径规划问题。应用基于动作集、状态转移函数和奖励函数的Kantorovich度量有效估计了两个应用场景下马尔可夫决策过程(Markov Decision Process,MDP)之间的相似度,从而实现了改进Q

learning在不同场景之间的迁移,使得智能体比传统Q

learning更快探索到无障碍路径。

技术实现思路

[0006]针对传统路径规划方法寻路效率不高以及相似场景下路径规划经验无法共享的问题,本专利技术提出一种基于迁移强化学习的VEX机器人路径规划方法。
[0007]首先,在栅格地图环境下,智能体利用强化学习不断与环境交互而探索到“合纵连横”和“一触即发”单场比赛中机器人的最优路径。
[0008]接着,智能体利用迁移学习将上一场比赛的学习经验迁移到相同赛制的下一场比赛或者不相同赛制的下一场比赛,再根据当前环境完成动作选择策略,高效寻找到机器人的最优路径。
[0009]最后,实验结果表明,“合纵连横”和“一触即发”比赛中迁移强化学习的路径规划时间比A*算法、Dijkstra算法分别减少了66.5%、16.5%和52%、19.4%。本专利技术减少了智能体在高度相关比赛中对未知环境的无效探索,降低模型训练时间的同时提高了路径规划准确率,有效解决了高相关路径规划任务之间经验迁移问题。
附图说明
[0010]图1是“合纵连横”的场地布局俯视图;
[0011]图2是“一触即发”的场地布局俯视图;
[0012]图3是“合纵连横”场地的栅格示意图;
[0013]图4是“一触即发”场地的栅格示意图;
[0014]图5是机器人8种移动方向示意图;
[0015]图6是“合纵连横”下两场比赛之间学习经验迁移的示意图;
[0016]图7是“合纵连横”和“一触即发”下两场比赛之间学习经验迁移的示意图;
[0017]图8是“合纵连横”下Q
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移强化学习的VEX机器人路径规划方法,本方法的应用场景为:VEX竞赛中红队和蓝队各由两支赛队组成,双方在包含前十五秒自动赛阶段和后一分四十五秒手动控制阶段的比赛中互相竞争;在自动赛阶段,各赛队的程序员根据赛季要求设计机器人避开障碍物的移动路径,以最快的速度到达目标地、完成对抗任务;其特征是所述移动路径的路径规划方法的设计步骤包括:1)建立VEX机器人的路径规划模型;2)利用强化学习求解单场比赛的最优路径;3)利用迁移强化学习求解两场比赛的最优路径;4)针对“合纵连横”和“一触即发”比赛实例进行仿真实验,评估步骤2)和步骤3)的所得路径的规划性能;在步骤1)中,机器人的路径规划模型建立过程为:1.1)将VEX机器人竞赛的比赛场地划分为一个9
×
9的栅格图,每个栅格宽度为l=4/3英尺,并将栅格属性定义为机器人的移动情况及障碍物的信息;1.2)机器人在每个栅格上的移动方向定义为8种移动方向:向前、向后、向左、向右、向右前、向右后、向左后、向左前;机器人从初始栅格坐标(x
origin
,y
origin
)向目标栅格坐标(x
target
,y
target
)移动的过程中,令移动速度为v,则到达当前栅格坐标(x,y)的移动时间表示为其中,n1和n2分别表示机器人向前、向后、向左、向右方向以及向右前、向右后、向左后、向左前方向移动的栅格总数,n=n1+n2表示机器人8个方向移动的栅格总数;定义向前为零度方向,顺时针为正向,逆时针为负向,则机器人转动角度θ的集合表示为1.3)结合移动方向和转动角度,机器人在自动赛阶段的路径规划建模为如下的目标优化问题P1P1:s.t.t
n
≤15秒
ꢀꢀ
(2a)θ∈Θ
ꢀꢀ
(2b)其中,约束条件(2a)表示机器人移动时间不超过15秒,约束条件(2b)表示机器人有8个移动方向;在步骤2)中,P1是一个非线性规划问题,利用强化学习寻找单场比赛的机器人的最优路径:针对单场比赛的路径规划,使用Q

learning探索机器人的最优路径;在步骤3)中:考虑到对手更换、比赛规则变化这些实际情况,需要在上一场比赛结束后调整下一场比赛的机器人路径策略;3.1)定义“合纵连横”或者“一触即发”自动赛阶段的上一场比赛的路径规划是源任务,下一场比赛的路径规划是目标任务;仅重用上一场比赛的寻路经验求出下一场比赛的最优
路径;3.2)“合纵连横”与“一触即发”自动赛阶段的比赛环境和机器人任务有高度相似性,则根据“一触即发”场地环境修改“合纵连横”的R表,在“合纵连横”的Q表上进行模...

【专利技术属性】
技术研发人员:沈航黄理晗唐海云张金俊陈界山
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1