System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习的室内物品飞行搬运机器人的路径规划方法技术_技高网

基于强化学习的室内物品飞行搬运机器人的路径规划方法技术

技术编号:40996870 阅读:24 留言:0更新日期:2024-04-18 21:36
一种基于强化学习的室内物品飞行搬运机器人的路径规划方法、设备及计算机存储介质,该方法中预设了双向记忆编辑数据集,双向记忆编辑数据集包括室内物品飞行搬运机器人在室内环境中任一位置执行飞行动作并且位置发生变化后产生的数据,飞行动作包括向前飞行和向后飞行中的至少一种,室内物品飞行搬运机器人基于双向记忆编辑数据集进行强化学习后,可以学习到从真实环境中的起点位置到达任一位置和/或从任一位置回到起点位置的路径规划的最优策略,从而在对待规划路径进行规划时得到最优路径。

【技术实现步骤摘要】

本专利技术涉及路径规划,具体涉及一种基于强化学习的室内物品飞行搬运机器人的路径规划方法,还涉及一种路径规划设备及计算机存储介质。


技术介绍

1、飞行机器人指的是不具有载人能力但是却可以通过其自身所带飞行控制程序在程序操纵或在人为操纵下实现飞行的机器,飞行机器人有机翼不可旋转和多旋翼两类,机翼不可旋转的飞行机器人更像常规中的飞机一样,同时也具有更大的动能,能够飞的更高更快,而多旋翼的飞行机器人能够在任意点进行悬停,具有更大的灵活性,也正是因为这一特点,多旋翼飞行机器人具有更广阔的应用空间,它的起飞降落对场地要求也不高,只需提供小面积平整地面即可,即使在室内场景也可以非常方便的起降,而且它的优势在于集成化程度高,机体完全由程序控制,一台飞行机器人可以携带如相机、微型处理器和imu、网络处理器等低功耗设备,这些传感器的配合使用让多旋翼飞行机器人具备了执行各类复杂室内任务的基本条件;利用多旋翼飞行机器人开展室内搬运物品任务是被广泛研究和应用的一个方向,所谓搬运物品就是在飞行机器人上方或者下方安装物品输送系统,采用缆绳钩挂或者承受负载,在飞行机器人的控制下将物品运送到指定位置,在这个过程中,它的自主能力的实现主要包括飞控系统和路径规划两个方面,前者提供飞行机器人自主飞行的动力,而路径规划可以为飞行机器人在无人控制的情况下根据当前环境以及自带的控制程序完成任务提供基础,因此路径规划在实现飞行机器人的自主飞行方面就显得尤为重要;路径规划,顾名思义,就是其在飞行过程中存在一个目标点,即只需要在复杂的环境中找到一条从起点通往目标点的路径即可,路径规划的优劣成为制约飞行机器人飞行效率的直接因素;因此,室内物品飞行搬运机器人的路径规划对于飞行机器人自主飞行和提高飞行效率具有至关重要的意义。

2、目前,研究人员对于飞行机器人的研究层出不穷,从不同的角度研究飞行机器人的路径规划方法,如:申请号为cn202311374352.9的专利中提出的一种基于改进a*算法的无人机路径规划方法和装置,该方法包括:构建无人机飞行区域的三维栅格地图,确定飞行起点和终点位置,并初始化a*算法模型;识别并标记所述飞行区域中的障碍物,对所述障碍物进行处理;根据对障碍物的处理结果生成障碍物权重系数,对所述a*算法模型的评价函数进行加权;基于加权后的评价函数规划所述无人机的路径;申请号为cn202011542716.6的专利中提出的一种基于视觉的室内无人机路径规划方法,首先构建点云地图,再进行点云滤波与降采样,以提高点云地图精度;然后构建八叉树地图和探索地图,再进行地势值计算;之后规划实时路径,通过上述地图的构建,最终可以形成实时路径规划所需的探索地图。

3、但对于室内物品飞行搬运机器人来说,现阶段的路径规划方法并不适用,原因如下:首先室内物品飞行搬运机器人的飞行环境和条件约束多变,应用场景丰富,当环境约束或任务场景变化时,传统的强化学习方法需要重新训练模型,但深度强化学习参数复杂,训练困难,这也使基于强化学习的无人机路径规划面临挑战;其次,在强化学习模型训练过程中收集飞行机器人的各种路线是非常困难也极具挑战性的,而且由于强化学习模型的内存仅基于室内物品飞行搬运机器人移动路径的一个方向进行编辑,在动态强化学习环境中很难找到逆作用,使得飞行机器人很难从当前位置回到初始点重新寻找最优路径。


技术实现思路

1、本专利技术提供的方法可以有效地实现室内物品飞行搬运机器人的双向路径的规划。

2、第一方面,本专利技术一实施例中提供一种基于强化学习的室内物品飞行搬运机器人的路径规划方法,包括:获取预设的双向记忆编辑数据集,所述双向记忆编辑数据集包括所述室内物品飞行搬运机器人在室内环境中任一位置执行飞行动作并且位置发生变化后产生的数据,所述飞行动作包括向前飞行和向后飞行中的至少一种,所述室内环境包括所述室内物品飞行搬运机器人所需执行任务的真实环境和仿真环境中的至少一种;使所述室内物品飞行搬运机器人基于所述双向记忆编辑数据集进行强化学习,强化学习后的室内物品飞行搬运机器人可以学习到从所述真实环境中的起点位置到达任一位置和/或从所述任一位置回到所述起点位置的最优策略;获取所述真实环境中的待规划路径所包括的起始点和最终目标点;根据所述起始点和所述最终目标点,基于所述强化学习后的室内物品飞行搬运机器人进行路径规划,得到目标路径。

3、一些实施例中,所述双向记忆编辑数据集的生成方式,包括:获取所述室内环境中的多种飞行轨迹;根据每一条所述飞行轨迹,得到多条正向路径,所述飞行轨迹包括起点和终点,所述正向路径为从所述起点到终点的路径;根据所述正向路径,生成多组正向记忆数据和多组反向记忆数据,所述多组正向记忆数据对应于所述正向路径,所述多组反向记忆数据对应于反向路径,所述反向路径为从所述终点到所述起点的路径;根据所有的正向记忆数据和所有的反向记忆数据,生成所述双向记忆编辑数据集。

4、一些实施例中,所述正向记忆数据的生成方法,包括:根据所述正向路径生成多个正向子目标,所述正向子目标为所述室内物品飞行搬运机器人执行所述向前飞行后所需到达的目标点;根据第二位置,生成所述正向记忆数据,所述第二位置为所述室内物品飞行搬运机器人在第一位置执行完所述向前飞行后的相邻正向子目标的位置,所述第一位置为所述室内物品飞行搬运机器人执行所述向前飞行时的位置;所述反向记忆数据的生成方法,包括:根据所述正向子目标生成所述反向子目标,所述反向子目标为所述室内物品飞行搬运机器人执行所述向后飞行后所需到达的目标点;根据第四位置,生成所述反向记忆数据,所述第四位置为所述室内物品飞行搬运机器人在第三位置执行完所述向后飞行后的相邻反向子目标的位置,所述第三位置为所述室内物品飞行搬运机器人执行所述向后飞行时的位置。

5、一些实施例中,所述正向记忆数据包括所述正向子目标和所述正向子目标的位置,所述正向记忆数据包括所述正向子目标和所述正向子目标的状态,所述正向子目标的状态可通过以下方式表示:(st+1||gt+1),其中,gt+1为第t+1个正向子目标,st+1为第t+1个正向子目标的位置;所述反向记忆数据包括所述反向子目标和所述反向子目标的状态,所述反向子目标的状态可通过以下方式表示:

6、(ft+1||qt+1),其中,qt+1为第t+1个反向子目标,ft+1为第t+1个反向子目标的位置。

7、一些实施例中,所述根据所述正向子目标生成所述反向子目标,包括:获取对应于一条所述正向路径的多个所述正向子目标;依次比较相邻两个所述正向子目标的位置;当一个所述正向子目标的位置相较于另一个所述正向子目标的位置更接近所述起始点时,根据该正向子目标生成反向子目标。

8、一些实施例中,所述使所述室内物品飞行搬运机器人基于所述双向记忆编辑数据集进行强化学习,包括:构建用于训练所述室内物品飞行搬运机器人学习目标点的策略网络,所述目标点为所述起点位置对应的目标点和所述任一位置对应的目标点中的至少一个;构建子目标专用网络,所述子目标专用网络用于训练所述室内物品飞行搬运本文档来自技高网...

【技术保护点】

1.一种基于强化学习的室内物品飞行搬运机器人的路径规划方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述双向记忆编辑数据集的生成方式,包括:

3.如权利要求2所述的方法,其特征在于,所述正向记忆数据的生成方法,包括:

4.如权利要求3所述的方法,其特征在于,所述正向记忆数据包括所述正向子目标和所述正向子目标的状态,所述正向子目标的状态可通过以下方式表示:

5.如权利要求4所述的方法,其特征在于,所述根据所述正向子目标生成所述反向子目标,包括:

6.如权利要求3所述的方法,其特征在于,所述使所述室内物品飞行搬运机器人基于所述双向记忆编辑数据集进行强化学习,包括:

7.如权利要求3所述的方法,其特征在于,所述使所述室内物品飞行搬运机器人基于所述双向记忆编辑数据集进行强化学习,还包括:

8.如权利要求7所述的方法,其特征在于,所述奖惩函数可通过以下方式表示:

9.一种路径规划设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。

10.一种计算机存储介质,其特征在于,包括:所述存储介质上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。

...

【技术特征摘要】

1.一种基于强化学习的室内物品飞行搬运机器人的路径规划方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述双向记忆编辑数据集的生成方式,包括:

3.如权利要求2所述的方法,其特征在于,所述正向记忆数据的生成方法,包括:

4.如权利要求3所述的方法,其特征在于,所述正向记忆数据包括所述正向子目标和所述正向子目标的状态,所述正向子目标的状态可通过以下方式表示:

5.如权利要求4所述的方法,其特征在于,所述根据所述正向子目标生成所述反向子目标,包括:

6.如权利要求3所述的方法,其特征在于,所述使所述室内物品飞行搬运...

【专利技术属性】
技术研发人员:任晓波王志敏吴俊杰李瑞娟
申请(专利权)人:深圳市华赛睿飞智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1