一种不依赖地图的智能仓储移动机器人路径规划方法技术

技术编号:21657840 阅读:47 留言:0更新日期:2019-07-20 05:27
本发明专利技术请求保护一种不依赖地图的智能仓储移动机器人路径规划方法,包含步骤:S1:首先在模拟的环境中进行训练,S2:实际环境中移动机器人导航,使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。本发明专利技术方法有效的解决了在未知环境中的路径规划问题;通过模拟训练,有效的提升了在未知环境中的避障效率。

A Map-independent Path Planning Method for Intelligent Warehousing Mobile Robot

【技术实现步骤摘要】
一种不依赖地图的智能仓储移动机器人路径规划方法
本专利技术属于机器人路径规划
,涉及一种采用激光传感器,并且不依赖地图的智能仓储移动机器人路径规划方法。
技术介绍
路径规划是自主移动机器人的关键要素之一,希望移动机器人能够尽量快速准确地到达目的地,同时也需要移动机器人能够安全有效的躲避环境中的障碍物。目前在环境地图完全已知的情况下安全有效的躲避障碍物并准确地到达目的地已经有较多较好的解决方案。但是在环境地图未知,并且仅仅依靠较分散激光传感器的感知数据时,对移动机器人导航过程的避障算法实时性和准确性要求更高,如果继续使用环境已知的方法进行环境未知的导航与避障,那么极大可能会引起避障失败,导致最终导航失效。移动机器人的动态避障的研究主要是对障碍物进行有效的探测和碰撞躲避控制算法设计优化,使移动机器人能够准确快速完成导航任务。对于障碍物的检测,需要利用移动机器人自身所带的测量传感器,通过传感器对障碍物进行距离与位置的测量以及运动状态的判断。目前对于这类传感器的使用一般有声纳传感器、红外传感器、激光传感器、视觉传感器等。但是传感器往往有它的缺陷,例如声纳传感器在遇到吸声材料时检测效果就会大受影响导致误差,视觉传感器在光线较差情况下,检测会有较大误差等。在动态避障算法的研究上,比较常用的方法有人工势场法、VFH类算法、神经网络法、遗传算法、模糊逻辑法以及滚动窗口法等。各有各自的优缺点,例如人工势场法计算量小实时性好,但容易出现局部极小值点。
技术实现思路
本专利技术旨在解决以上现有技术的问题,提出了一种不依赖地图的智能仓储移动机器人路径规划方法,本方法相对于传统方法优点在于:1.使用的激光传感器激光束较少,但能实现可靠的实时路径规划,降低了移动机器人的传感器成本;2.无需建立实体环境地图,依然能进行路径规划。本专利技术的技术方案如下:一种不依赖地图的智能仓储移动机器人路径规划方法,其包括以下步骤:S1:首先在模拟的环境中进行训练,a1:设置移动机器人运动时,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x,y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行导航路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标中的角度信息,d是目标点距移动机器人中心的距离信息;a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;a3:利用深度确定梯度策略方法,得到下一步的动作状态a,并在动作a执行后通过奖励反馈,改变策略子网络中神经元的权重和偏置,a∈W代表执行动作时移动机器人所偏转的角度在W范围内;a4:判断移动机器人是否到达目标点(xt,yt),如果没有到达目标点则返回a2继续导航,如果已到达目标点则结束导航;a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的评价网络参数,在训练的成功率达到目标成功率后,保存深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数。S2:实际的移动机器人导航(环境可以与模拟的环境不同),使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。进一步的,所述步骤a2将激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si,具体包括:激光传感器数据Li(i=1,2,…,10)进行预处理,再转换为环境特征参数Lfi(i=1,2,…,10);目标位置数据需先进行分区域处理后得到区域距离数据Di(i=11,12,13),其中D11是当前移动机器人相对于X坐标的角度,D12是距离目标点的距离,D13是目标点相对于移动机器人自身前进方向的角度,再进行转换为距离特征参数Dfi(i=11,12,13);根据定义的最大距离dm,将激光传感器的距离数据转换为距离特征值数据:Lfi=Li÷dm(i=1,2,3,…,10)将激光传感器的距离数据转换为距离特征值数据:Dfi=D11÷π,D12÷dm,D13÷π,然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合,得出当前的环境特征数据Sf1~Sf13,融合方式为:进一步的,所述目标位置的数据需先进行分区域,分区域目的是为了得到到达目标的最佳角度,处理后得到距离数据D13,D13是目标点相对于移动机器人自身前进方向的角度,具体包括:先将移动机器人正前方作为参考起点,顺时针角度为负,逆时针角度为正,得到相对于目标位置的最优角度,角度的绝对值小于等于180°。进一步的,所述步骤a3中深度确定梯度策略方法具体包括:动作选择策略采用的是策略子网络输出动作,并附加Nt的扰动,表示为a=A(s|μA)+Nt其中,s表示状态,μA是策略子网络参数,Nt是扰动,A是深度确定梯度策略方法的动作策略。当移动机器人需要进行动态避障时,将该时刻的融合数据作为深度确定梯度策略输入数据,然后经过深度确定梯度策略决策以后输出下一刻动作a,将动作a在环境中执行后,根据奖励值的不同进行深度确定梯度策略方法网络参数的更新,在评价网络中:Q(s,a)=Q(s,a)+α(r+(Q(s',a'))-Q(s,a))其中Q是值函数,(s,a)是t时刻的状态,r是t时刻行为对应的奖励值,Q(s',a')是在t+1时刻采取的行为在新状态下计算的Q值,α是学习率,γ是折扣因子。进一步的,所述动作a的设计具体为,在固定的连续区间内选择。进一步的,其特征在于,R值的设计具体为:为了定义奖励函数,首先对移动机器人的状态S进行如下分类:1)安全状态SS:移动机器人与环境中的任何障碍物未碰撞的一组状态;2)非安全状态NS:移动机器人与环境中的任何障碍物碰撞的一组状态;3)获胜状态WS:移动机器人到达目标时的状态;根据移动机器人状态,定义奖励函数。进一步的,所述步骤a4具体为:根据移动机器人当前的坐标信息(x,y)判断移动机器人是否到达目标点(xt,yt);如果表明移动机器人已经到达目标点范围内,如果min{L1,L2,...L10}>C,L1是激光传感器得到的距离障碍的距离,C是移动机器人的长度,表明移动机器人已经与障碍产生碰撞,已经是WS或者NS,结束此次导航;反之,表明移动机器人尚未达到目标点,仍需要继续导航,返回步骤a2继续执行,直到到达目标点。本专利技术的优点及有益效果如下:本专利技术提供了一种不依赖地图的智能仓储移动机器人路径规划方法,本专利技术方法通过深度学习的方法,有效的解决了在未知环境中的路径规划问题;通过模拟训练,有效的提升了在真实环境中的避障效率。附图说明图1是本专利技术提供优选实施例为移动机器人感知目标点模型;图2为移动机器人激光传感器感知障碍模型;图3为S1步骤整体流程图;图4是S2步骤整体流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部本文档来自技高网...

【技术保护点】
1.一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,包括以下步骤:S1:首先移动机器人在模拟的环境中进行训练;a1:设置移动机器人运动时的目标,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x、y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标下的角度信息,d是目标点距移动机器人中心的距离信息;a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;a3:利用深度确定梯度策略方法,得到下一步的动作状态a,a∈W代表执行动作时移动机器人所偏转的角度在W范围内;a4:判断移动机器人是否到达目标点(xt,yt),如果没有则返回a2继续导航,如果已到达则结束导航;a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数;S2:实际环境移动机器人导航使用在S1中保存了网络参数的深度确定梯度策略方法进行移动机器人动作选择。...

【技术特征摘要】
1.一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,包括以下步骤:S1:首先移动机器人在模拟的环境中进行训练;a1:设置移动机器人运动时的目标,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x、y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标下的角度信息,d是目标点距移动机器人中心的距离信息;a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;a3:利用深度确定梯度策略方法,得到下一步的动作状态a,a∈W代表执行动作时移动机器人所偏转的角度在W范围内;a4:判断移动机器人是否到达目标点(xt,yt),如果没有则返回a2继续导航,如果已到达则结束导航;a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数;S2:实际环境移动机器人导航使用在S1中保存了网络参数的深度确定梯度策略方法进行移动机器人动作选择。2.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述步骤a2将激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si,具体包括:激光传感器数据Li(i=1,2,…,10)进行预处理,再转换为环境特征参数Lfi(i=1,2,…,10);目标位置的数据需先进行分区域处理,然后得到区域距离数据Di(i=1,2,3),其中D1是当前移动机器人相对X坐标的角度,D2是距离目标点的距离即d,D3是目标点相对于移动机器人自身前进方向的角度即θ,然后Di再进行转换得到距离特征参数Dfi(i=11,12,13);根据定义的最大距离dm,将激光传感器的距离数据转换为距离特征值数据:Lfi=Li÷dm(i=1,2,3,…,10)将激光传感器的距离数据转换为距离特征值数据:Dfi=D11÷π,D12÷dm,D13÷π,然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合,得出当前的环...

【专利技术属性】
技术研发人员:魏长赟张鹏鹏蔡帛良倪福生蒋爽顾磊李洪彬刘增辉
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1