一种自主导航机器人制造技术

技术编号:34373854 阅读:31 留言:0更新日期:2022-07-31 12:29
本发明专利技术公开了一种自主导航机器人,包括传感器、控制器和行走机构;其中,传感器用于检测障碍物相对机器人的距离和角度,形成状态数据;控制器用于根据状态数据以及目标点的相对位置对机器人所处的场景进行分类,若为简单场景,则执行PID控制策略;若为复杂场景,则执行强化模仿学习控制策略;若为紧急场景,则执行约束强化模仿学习控制策略;控制器通过执行相应的控制策略控制行走机构驱动机器人行走,达到导航避障的目的。本发明专利技术面向各种具有动态和静态障碍物的复杂场景设计机器人的自主导航策略,可以弥补传统路径规划方法无法躲避动态障碍物,监督式学习方法泛化能力差,强化学习方法在简单以及紧急情况下输出策略不理想的缺陷。缺陷。缺陷。

An autonomous navigation robot

【技术实现步骤摘要】
一种自主导航机器人


[0001]本专利技术属于移动机器人
,具体地说,是涉及一种可以根据环境变化合理规划行走路径并能自动避障的自主导航机器人。

技术介绍

[0002]导航和避障是移动机器人完成各项任务的基本功能。移动机器人通过外部传感器进行环境感知,并获得几何空间的各维度信息。根据获得的几何空间信息并结合避障算法,机器人在行走的过程中可以对障碍物进行规避,并自主规划路径。
[0003]在移动机器人上实现自主学习避障功能,是提升机器人智能化程度的重要一步,这可以使得移动机器人具备像人类一样的行为策略,能够在未知的环境中躲避机器人前方的动态或者静态障碍物,从而使得移动机器人具有自主导航的能力。
[0004]目前,用于机器人的自主导航方法主要有路径规划方法、监督式学习方法和强化学习方法。其中,路径规划方法需要对机器人及其所处环境进行准确感知,以保证规划出的路径长度是最优的。但是,该方法需要中央服务器集中计算,难以在大规模的机器人群中以及有动态障碍物的未知环境中使用。监督式学习方法能够根据传感器数据进行决策,使得移动机器人可以躲避动态障碍物。但是,该方法所需数据的采集难度较大,若机器人所观察到的环境状态未在训练数据集中出现过,则无法做出正确的决策,因此,泛化能力较差。强化学习方法通过机器人与环境交互进行训练,不需要数据集,在环境中所采取的策略具有一定的随机性。但是,基于强化学习模型设计的自动导航机器人,在简单的场景下无法沿直线行驶,走出最短路径。并且,在接近目标点位置时,会出现机器人在目标点附近徘徊,而不是迅速接近目标点的情况。同时,在周围的障碍物非常密集以及障碍物突然出现在面前等紧急场景下,机器人对障碍物无法及时做出反应,执行紧急避障。

技术实现思路

[0005]本专利技术面向各种具有动态和静态障碍物的复杂场景设计移动机器人的自主导航策略,可以弥补传统路径规划方法无法躲避动态障碍物,监督式学习方法泛化能力差,强化学习方法在简单以及紧急情况下输出策略不理想的缺陷。
[0006]为达到上述专利技术目的,本专利技术采用以下技术方案予以实现:
[0007]一种自主导航机器人,包括传感器、控制器和行走机构;其中,所述传感器用于检测障碍物相对机器人的距离和角度,形成状态数据;所述控制器用于根据所述状态数据以及目标点相对位置对机器人所处的场景进行分类,若为简单场景,则执行PID控制策略;若为复杂场景,则执行强化模仿学习控制策略;若为紧急场景,则执行约束强化模仿学习控制策略;并且通过执行相应的控制策略计算出机器人行走的线速度和角速度;所述行走机构用于驱动机器人按照控制器计算出的线速度和角速度行走。
[0008]在本申请的一些实施例中,为了尽可能地避免机器人在行走过程中碰撞到障碍物,可以在所述控制器中配置碰撞预测模型,所述碰撞预测模型可以根据所述状态数据以
及机器人的自身速度预测机器人能否发生碰撞。
[0009]在本申请的一些实施例中,所述简单场景为机器人前方没有障碍物或者机器人到达目标点周围的场景;所述紧急场景为通过所述碰撞预测模型机器预测出机器人会发生碰撞的场景;所述复杂场景为所述简单场景和紧急场景以外的场景。
[0010]在本申请的一些实施例中,所述控制器在执行PID控制策略时,可以将机器人前进正方向与目标点之间的夹角设置为偏差,代入PID计算公式,计算出机器人的角速度,并保持机器人的线速度不变。采用PID控制策略可以控制机器人以最短的路径行驶,并在接近目标点位置时,迅速达到目标点。
[0011]在本申请的一些实施例中,所述控制器所执行的强化模仿学习控制策略可以包括:
[0012]模仿学习过程,其利用专家数据集中的数据对Actor网络进行训练;
[0013]强化学习过程,其利用经模仿学习过程训练后的Actor网络以及Critic网络,结合状态数据、机器人的自身速度以及目标点相对位置计算输出动作a,并根据所述动作a控制所述行走机构调整机器人行走的线速度和角速度。
[0014]在本申请的一些实施例中,在所述自主导航机器人中还配置有存储器,用于存储控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态s以及机器人执行动作a获得的奖赏r,并将所收集到的(s,a,r)数据存入经验池;所述控制器在存入经验池中的数据的数量满足设定条件时,计算强化学习模型的损失值,进而对强化学习模型中的Actor网络和Critic网络进行更新,以实现网络优化。
[0015]在本申请的一些实施例中,可以配置所述约束强化模仿学习控制策略与所述强化模仿学习控制策略中所使用的Actor网络和Critic网络相同;所述控制器在执行约束强化模仿学习控制策略时,首先判断机器人的线速度是否大于设定阈值;若大于设定阈值,则将机器人的速度设置为0,即,控制机器人停止,以实现紧急避障;若小于等于设定阈值,则缩小传感器检测到的距离数据,并将缩小后的距离数据输入强化学习模型,使通过强化学习模型计算输出动作a中表示机器人速度的数值减小。通过降低机器人的行走速度,并借助强化模仿学习控制策略进行导航,由此可以达到有效避障的设计目的。
[0016]与现有技术相比,本专利技术的优点和积极效果是:本专利技术利用基于碰撞预测的场景分类模型,随时对机器人所在的环境进行分类。针对简单场景,采用PID控制策略,控制机器人直线、快速地到达目标点,避免了机器人在目标点附近徘徊,而不是迅速接近目标点的情况出现。针对复杂场景,采用强化模仿学习控制策略进行导航,以控制机器人安全避开障碍物。针对紧急情况,采用约束强化模仿学习控制策略,控制机器人对突然出现的障碍物及时做出反应,避免发生碰撞。三种控制策略的结合应用,可以使得机器人以较短的时间和路经长度,安全到达目标点,提高效率。
[0017]结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其他特点和优点将变得更加清楚。
附图说明
[0018]图1是本专利技术所提出的自主导航机器人的一种实施例的主要硬件架构图;
[0019]图2是本专利技术所提出的自主导航机器人所执行的导航策略的一种实施例的总体架
构图;
[0020]图3是基于碰撞预测的场景分类流程图;
[0021]图4是导航模型的更新流程图;
[0022]图5是强化模仿学习控制策略的一种实施例的流程图;
[0023]图6是约束强化模仿学习控制策略的一种实施例的流程图;
[0024]图7是八个机器人在圆形场景下行走的轨迹示意图。
具体实施方式
[0025]下面结合附图对本专利技术的具体实施方式进行详细地描述。
[0026]如图1所示,本实施例的移动机器人为了实现自主导航功能,在硬件配置上主要配置有传感器、控制器、存储器、行走机构等功能部件。
[0027]其中,传感器用于观察机器人所处的环境状态,例如障碍物相对机器人的距离和角度等信息,以形成状态数据,提供给导航策略使用。在某些实施例中,所述传感器可以选择激光雷达传感器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自主导航机器人,其特征在于,包括:传感器,其用于检测障碍物相对机器人的距离和角度,形成状态数据;控制器,其用于根据所述状态数据以及目标点相对位置对机器人所处的场景进行分类,若为简单场景,则执行PID控制策略;若为复杂场景,则执行强化模仿学习控制策略;若为紧急场景,则执行约束强化模仿学习控制策略;并且通过执行相应的控制策略计算出机器人行走的线速度和角速度;行走机构,其用于驱动机器人按照控制器计算出的线速度和角速度行走。2.根据权利要求1所述的自主导航机器人,其特征在于,在所述控制器中配置有碰撞预测模型,所述碰撞预测模型根据所述状态数据以及机器人的自身速度预测机器人能否发生碰撞。3.根据权利要求2所述的自主导航机器人,其特征在于,所述简单场景为机器人前方没有障碍物或者机器人到达目标点周围的场景;所述紧急场景为通过所述碰撞预测模型机器预测出机器人会发生碰撞的场景;所述复杂场景为所述简单场景和紧急场景以外的场景。4.根据权利要求1至3中任一项所述的自主导航机器人,其特征在于,所述控制器在执行PID控制策略时,将机器人前进正方向与目标点之间的夹角设置为偏差,代入PID计算公式,计算出机器人的角速度,并保持机器人的线速度不变。5.根据权利要求1所述的自主导航机器人,其特征在于,所述控制器所执行的强化模仿学习控制策略包括:模仿学习过程,其利用专家数据集中的数据对Actor网络进行训练;强化学习过程,其利用经模仿学习过程训练后的Actor网络以及Critic网络,结合状态数据、机器人的自身速度以及目标点相对位置计算输出动作a,并根据所述动作a控制所述行走机构调整机器人行走的线速度和角速度。6.根据权利要求5所述的自主导航机器人,其特征在于,所述控制器在模仿学习过程中,配置模仿学习的目标优化函数为:其中,s
i
、a
i
为专家数据集中的数据,且s
i
表示机器人通过传感器所观察到的状态,a
i
表示在状态s
i
下机器人所执行的动作;π
θ
表示Actor网络;N表示专家数据集中的样本数量;θ表示Actor网络的权重;表示求结果最小值所对应的θ;所述控制器利用权重θ对Actor网络进行优化。7.根据权利要求5所述的自主导航机器人,其特征在于,还包括:存储器,其用于存储控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态s以及机器人执行动作a获得的奖赏r,并将所收集到的(s,a,r)数据存入经验池;其中,所述控制器在存入经验池中的数据的数量满足设定条件时,计算强化学习模型的损失值,进而对强化学习模型中的Actor网络和Critic网络进行更新。8.根据权利要求7所述的自主导航机器人,其特征在于,所述控...

【专利技术属性】
技术研发人员:陶冶王浩杰
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1