基于深度强化学习的机器人初始定位方法技术

技术编号：40648948 阅读：7 留言：0更新日期：2024-03-13 21:27

本申请的实施例涉及智能机器人定位技术领域，公开了一种基于深度强化学习的机器人初始定位方法，包括：获取目标机器人扫描得到的实时点云图，将实时点云图转化为实时高程图；在目标机器人所在区域中确定估计位置，基于估计位置按照实时点云图的规模在目标机器人所在区域对应的地图点云中选取估计点云图，并将估计点云图转化为估计高程图；将实时高程图和估计高程图输入至预训练的调整模型中，获取调整模型输出的调整值；在调整值的波动幅度小于预设阈值的情况下，基于估计位置进行点云配准，确定目标机器人的实际初始位置。该方法无需依赖GNSS，泛化性能较好，不受繁琐的条件限制，能够在短时间内实现快速全局初始化。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及智能机器人定位，特别涉及一种基于深度强化学习的机器人初始定位方法。

技术介绍

1、激光雷达slam(simultaneous localization and mapping，即时定位与地图构建)技术需要预先提供全局的初始位置来实现连续定位，因此，机器人需要人工设定初始位置，或关机后记忆当前位置，下一次开机之前不发生位置改变。这样的条件大大降低了机器人定位的通用度。基于此，初始定位技术营运而生，目前业内较成熟的初始定位技术包括两类，一类是基于gnss(global navigation satellite system，全球导航卫星系统)的初始定位方法，另一类是基于蒙特卡洛框架的初始定位方法。

2、基于gnss的初始定位方法主要是在机器人上安装gps接收机，通过接收基站发送的差分数据来获取高精度的定位和定向。这种方法一般能够获取较好的初始定位效果，但是对环境要求较高，在室内或者有遮挡情况的室外环境下，例如高楼之间或树木下方，gnss信号明显减弱，无法获取稳定的位姿解，从而导致定位精度大幅度下降，此时的定位精度可能达到数十米之外，精度无法满足初始定位要求。

3、基于蒙特卡洛框架的初始定位方法使用粒子来表示机器人的位置，并根据传感器的实时数据与地图数据进行对比来进行粒子滤波。这种方法能够获取全局最优解，但是需要人工操作机器人在一定范围内移动使得粒子位置收敛，这需要较长的时间，实用性较低。

4、综上所述，业内的初始定位技术受到环境和使用条件的严重限制，机器人需要满足相应的要求，或者需

技术实现思路

1、本申请实施例的目的在于提供一种基于深度强化学习的机器人初始定位方法，无需依赖gnss，泛化性能较好，不受繁琐的条件限制，能够在短时间内实现快速全局初始定位。

2、为解决上述的技术问题，本申请的实施例提供了基于深度强化学习的机器人初始定位方法，包括以下步骤：获取目标机器人扫描得到的实时点云图，将所述实时点云图转化为实时高程图；在目标机器人所在区域中确定估计位置，基于所述估计位置，按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图，并将所述估计点云图转化为估计高程图；将所述实时高程图和所述估计高程图输入至预训练的调整模型中，获取所述调整模型输出的调整值；在所述调整值的波动幅度小于预设阈值的情况下，基于所述估计位置进行点云配准，确定所述目标机器人的实际初始位置。

3、本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器中存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于深度强化学习的机器人初始定位方法。

4、本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度强化学习的机器人初始定位方法。

5、本申请的实施例提供的基于深度强化学习的机器人初始定位方法，首先对实时点云和估计点云进行降维处理，转化成规模相同的实时高程图和估计高程图，将实时高程图和估计高程图输入至预训练的调整模型中，调整模型的本质是将机器人初始定位问题建模成一个马尔可夫决策问题，衡量估计高程图与实时高程图的匹配程度，输出估计位置对应的调整值，若估计位置对应的调整值小于预设阈值，说明该估计位置较为准确，无需调整，至此完成机器人初始位置的粗略定位，随后基于该估计位置进行点云配准，确定目标机器人精确的实际初始位置。求解模型和点云配准结合使用，无需依赖gnss，不需要经过大量的迭代计算，也不需要人工操作机器人进行额外的移动，仅依靠机器人本身的激光雷达即可在一定范围内实现快速的自动初始定位，全过程不受繁琐的条件限制，泛化性能较好，具有很强的普适性。

6、在一些可选的实施例中，所述将所述实时点云图转化为实时高程图，包括：基于所述目标机器人的传感器的方位角和径向距离，按照预设的方位角分割间距和径向距离分割间距，将所述实时点云图划分为若干个实时点云区域；遍历各所述实时点云区域，将当前实时点云区域中高度最高的像素点的高度值，作为所述当前实时点云区域对应的高程值，并将所述当前实时点云区域内各像素点的像素值赋值为所述当前实时点云区域对应的高程值；基于赋值后的各所述实时点云区域，得到实时高程图。基于方位角和径向距离进行实时点云图的区域划分，虽然距离中心越远的点云数据越稀疏，但分割的面积也越大，这样就弥补了远处点云数据过于稀疏导致的信息量不足的问题。讲信息丰富的实时点云图降维成灰度化的实时高程图，降低了后续处理时的难度和计算量。

7、在一些可选的实施例中，所述基于所述估计位置，按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图，并将所述估计点云图转化为估计高程图，包括：在所述目标机器人所在区域对应的地图点云中，以所述估计位置为圆心，按照所述实时点云图的半径，划定第一圆形区域，基于所述第一圆形区域中的点云得到所述估计位置对应的估计点云图；按照所述实时点云图对应的划分标准，将所述估计点云图划分为若干个估计点云区域；遍历各所述估计点云区域，将当前估计点云区域中高度最高的像素点的高度值，作为所述当前估计点云区域对应的高程值，并将所述估计实时点云区域内各像素点的像素值赋值为所述当前估计点云区域对应的高程值；基于赋值后的各所述估计点云区域，得到估计高程图。估计位置对应的估计点云图可以从目标机器人所在区域对应的地图点云中选取，同时按照实时点云图的规模进行选取，保证估计点云图与实时点云图的大小一致，这样转换得到的实时高程图与估计高程图的规模也就一致，很好地保证了机器人初始定位的规范化和标准化。

8、在一些可选的实施例中，所述调整模型通过以下步骤进行训练：获取样本实时高程图和样本估计高程图，将机器人初始定位问题建模成一个马尔可夫决策问题，将所述样本实时高程图和所述样本估计高程图作为所述马尔可夫决策问题的状态空间，设定初始调整值作为所述马尔可夫决策问题的动作空间，并根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖赏函数；构建动作网络和评价网络组成actor-critic框架，将所述样本实时高程图和样本估计高程图同时输入至所述动作网络和所述评价网络中，获取所述动作网络输出的样本调整值，并获取所述评价网络输出的评价值；其中，所述评价值用于评价所述样本调整值的优劣；基于预设的学习率、当前次训练对应的评价值、当前次训练对应状态空间、当前次训练对应动作空间、当前次训练对应的奖赏值和目标评价值，构建损失函数，并使用所述损失函数对所述动作网络进行迭代训练，直至所述动作网络收敛，基于收敛后的动作网络得到调整模型。actor-critic框架能够将策略评估和策略改进两个过程结合起来，具有较好的性能和灵活性，基于actor-critic框架构建、训练调整模型，可以使得本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的机器人初始定位方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述将所述实时点云图转化为实时高程图，包括：

3.根据权利要求2所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述基于所述估计位置，按照所述实时点云图的规模在所述目标机器人所在区域对应的地图点云中选取估计点云图，并将所述估计点云图转化为估计高程图，包括：

4.根据权利要求1所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述调整模型通过以下步骤进行训练：

5.根据权利要求4所述的基于深度强化学习的机器人初始定位方法，其特征在于，通过以下公式，根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖赏函数：

6.根据权利要求4所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述损失函数通过以下公式表示：

7.根据权利要求4所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述目标评价值在预设的经验池中抽取得到，所述

8.根据权利要求1至7中任一项所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述在所述调整值的波动幅度小于预设阈值的情况下，基于所述估计位置进行点云配准，确定所述目标机器人的实际初始位置，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的基于深度强化学习的机器人初始定位方法。

...

【技术特征摘要】

1.一种基于深度强化学习的机器人初始定位方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述将所述实时点云图转化为实时高程图，包括：

4.根据权利要求1所述的基于深度强化学习的机器人初始定位方法，其特征在于，所述调整模型通过以下步骤进行训练：

5.根据权利要求4所述的基于深度强化学习的机器人初始定位方法，其特征在于，通过以下公式，根据所述样本实时高程图和所述样本估计高程图各列之间的距离设定所述马尔可夫决策问题的奖...

【专利技术属性】
技术研发人员：武豪，白普俊，李贵宾，李文耀，魏海瑞，戴辰辰，李少博，刘朝芳，
申请(专利权)人：西安长峰机电研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人