System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 利用中层视觉先验的强化学习路径规划方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

利用中层视觉先验的强化学习路径规划方法技术

技术编号:40140346 阅读:8 留言:0更新日期:2024-01-23 23:31
本发明专利技术提供了一种利用中层视觉先验的强化学习路径规划方法,具有这样的特征,包括以下步骤:步骤S1,将图像数据输入视觉处理网络得到中层特征信息;步骤S2,将中层特征信息向量化为向量信息D;步骤S3,对坐标进行转化;步骤S4,将向量信息D、当前位置坐标Q’和目标点坐标T’输入决策模型,得到下一个路径点P’;步骤S5,将下一个路径点P’作为当前位置坐标Q’,迭代执行步骤S4,得到可跟随路径L;步骤S6,控制机器人根据可跟随路径L移动,t时间后重新采集图像数据;步骤S7,重复执行步骤S1至步骤S6,直至控制机器人移动至目标点。总之,本方法能够利用感知信息控制机器人进行更有效的导航移动。

【技术实现步骤摘要】

本专利技术涉及机器人路径规划领域,具体涉及一种利用中层视觉先验的强化学习路径规划方法


技术介绍

1、机器人的导航是移动机器人领域最核心的问题之一,而导航问题当中,路径规划则是不可或缺的一个层面。

2、传统的路径规划算法主要包括基于搜索的a*算法、dijkstra算法、d*算法、基于采样的prm算法、rrt算法等。传统的机器人导航技术长期使用视觉预处理来有效利用视觉信息,比如移动机器人领域最重要的技术之一——视觉slam技术,常常预先提取图像的深度信息,或进行地平面检测等。然而传统的导航技术在决策能力上往往受限于算法的进步,存在着决策能力较差、速度较慢等问题,对于机器人的操控水平远远落后于人类实际手动操控的水平。

3、近年来随着人工智能技术的发展,出现了许多可以应用于路径规划问题中的智能和仿生路径规划算法,包括神经网络算法、强化学习算法,蚁群算法、遗传算法等。以机器学习尤其是强化学习为基础模型的、端到端方式的移动机器人路径规划方法,常常使用原始图像作为路径规划模型的输入。然而,强化学习算法是端到端的方法或者依赖于大量的样本数据,或者受限于实验场景,不具有良好的泛化性。因此训练出来的策略模型,大都很难在其他环境中适用,哪怕环境只有轻微差异;或者容易陷入局部最优解,在复杂场景下缺乏有效的导航方式。所以现有的端到端的导航方法,还不能利用感知信息控制机器人进行更有效的导航移动。


技术实现思路

1、本专利技术是为了解决上述问题而进行的,目的在于提供一种利用中层视觉先验的强化学习路径规划方法。

2、本专利技术提供了一种利用中层视觉先验的强化学习路径规划方法,具有这样的特征,用于根据机器人采集的图像数据和机器人当前位置坐标q和目标点坐标t控制机器人移动至目标点,包括以下步骤:步骤s1,将机器人的传感器获得的图像数据输入训练好的基于残差神经网络的视觉处理网络,得到中层特征信息;步骤s2,将中层特征信息进行卷积操作,向量化为向量信息d;步骤s3,将世界坐标系下的机器人的当前位置坐标q和目标点坐标t转化为机器人坐标系下的当前位置坐标q’和目标点坐标t’;步骤s4,将向量信息d、当前位置坐标q’和目标点坐标t’输入训练好的基于ppo算法的决策模型,得到当前位置坐标q’的下一个路径点p’;步骤s5,将下一个路径点p’作为当前位置坐标q’,迭代执行步骤s4,直至得到n个路径点,作为可跟随路径l;步骤s6,控制机器人根据可跟随路径l移动,在经过固定时间t后,根据传感器采集得到机器人当前位置的图像数据;步骤s7,重复执行步骤s1至步骤s6,直至控制机器人移动至目标点,其中,世界坐标系为以大地为基准的x-y坐标系,选取环境中的任意一点作为原点,机器人坐标系为以机器人当前位置为原点,以机器人面向位置为x轴正方向的坐标系。

3、在本专利技术提供的利用中层视觉先验的强化学习路径规划方法中,还可以具有这样的特征:其中,在步骤s1中,中层特征信息为深度特征信息或语义分割信息或3d关键点特取信息或表面法线信息。

4、在本专利技术提供的利用中层视觉先验的强化学习路径规划方法中,还可以具有这样的特征:其中,对基于残差神经网络的视觉处理网络通过在仿真平台构建模拟场景和模拟机器人并获得模拟机器人视角的模拟场景的图像数据和中层特征信息后进行训练,包括以下步骤:步骤t1,控制模拟机器人在模拟场景中移动,获得模拟机器人视角的图像数据作为训练图像数据和对应的中层特征信息作为真实中层特征信息;步骤t2,将训练图像数据输入视觉处理网络,得到中层特征信息作为预测中层特征信息;步骤t3,根据预测中层特征信息和对应的真实中层特征信息计算损失函数,根据损失函数更新视觉处理网络的网络参数;步骤t4,执行步骤t2至步骤t3,直至所有的训练图像数据和真实中层特征信息都被用于更新网络参数,则得到训练好的视觉处理网络。

5、在本专利技术提供的利用中层视觉先验的强化学习路径规划方法中,还可以具有这样的特征:其中,在步骤t3中,损失函数的计算公式如下:l=crossentropy(p,f),式中crossentropy()为交叉熵函数,p为预测中层特征信息,f为真实中层特征信息。

6、在本专利技术提供的利用中层视觉先验的强化学习路径规划方法中,还可以具有这样的特征:其中,对基于ppo算法的决策模型通过在仿真平台构建模拟场景和模拟机器人并获得模拟机器人视角的模拟场景的仿真图像数据、模拟机器人当前位置坐标a和目标点坐标b控制模拟机器人向目标点移动从而进行训练,包括以下步骤:步骤r1,将模拟机器人视角的仿真图像数据输入训练好的视觉处理网络,得到中层特征信息;步骤r2,将中层特征信息进行卷积操作,向量化为向量信息c;步骤r3,将仿真平台的世界坐标系下的模拟机器人的当前位置坐标a和目标点坐标b转化为模拟机器人坐标系下的当前位置坐标a’和目标点坐标b’;步骤r4,将向量信息c、当前位置坐标a’和目标点坐标b’输入决策模型,得到当前r4位置坐标a’的下一个路径点e’;步骤r5,将下一个路径点e’作为当前位置坐标a’,迭代执行步骤r4,直至得到n个路径点,作为可跟随路径m;步骤r6,控制模拟机器人根据可跟随路径m移动,在固定时间t内若模拟机器人与仿真环境中的障碍物碰撞,则进入步骤r8,否则在固定时间t后将当前位置的模拟机器人视角的图像作为仿真图像数据;步骤r7,重复执行步骤r1至步骤r6,直至控制模拟机器人移动至目标点坐标b;步骤r8,计算决策模型的回报函数r,判断回报函数r的计算结果是否收敛,若是,则决策模型训练完成,若否,则根据计算结果更新决策模型的参数,重新设置模拟机器人的当前位置和目标点坐标b,执行步骤r1至步骤r7。

7、在本专利技术提供的利用中层视觉先验的强化学习路径规划方法中,还可以具有这样的特征:其中,在步骤r8中,回报函数的公式如下:式中rc为碰撞回报函数,rd为目标点距离反馈函数,rs为路径平滑程度反馈函数,λ为奖励值,μ为奖励值,μ1为可变参数,d为模拟机器人当前位置同目标点b的距离,di为第i个路径点与目标点b的距离,μ2为可变参数,αi为第i-1个路径点和第i个路径点间的偏转角,α0为当前位置坐标a’。

8、专利技术的作用与效果

9、根据本专利技术所涉及的利用中层视觉先验的强化学习路径规划方法,因为通过视觉处理网络从原始图像数据中抽离中层特征信息,利用中策特征信息经由基于ppo算法的决策模型生成可跟随路径,提高了在不同环境下生成路径的泛化能力和本方法在不同轮式机器人上的迁移性,所以,本专利技术的利用中层视觉先验的强化学习路径规划方法能够利用感知信息控制机器人进行更有效的导航移动。

本文档来自技高网...

【技术保护点】

1.一种利用中层视觉先验的强化学习路径规划方法,用于根据机器人采集的图像数据、机器人当前位置坐标Q和目标点坐标T控制所述机器人移动至目标点,其特征在于,包括以下步骤:

2.根据权利要求1所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

3.根据权利要求1所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

4.根据权利要求3所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

5.根据权利要求1所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

6.根据权利要求5所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

【技术特征摘要】

1.一种利用中层视觉先验的强化学习路径规划方法,用于根据机器人采集的图像数据、机器人当前位置坐标q和目标点坐标t控制所述机器人移动至目标点,其特征在于,包括以下步骤:

2.根据权利要求1所述的利用中层视觉先验的强化学习路径规划方法,其特征在于:

3.根据权利要求1所述的利用中层视觉先...

【专利技术属性】
技术研发人员:刘子昂李伟张隆源刘司澳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1