【技术实现步骤摘要】
机器人路径导航方法、系统、设备及存储介质
[0001]本公开涉及机器人路径导航
,特别是涉及机器人路径导航方法、系统、设备及存储介质。
技术介绍
[0002]本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。
[0003]通过在传统机器人中安置传感器,机器人可以感知环境信息来判断自身的状态。实现了机器人通过与环境交互完成自主运动。随着机器人在人们生活中应用越来越广泛,机器人的路径导航问题变得越来越重要。
[0004]作为智能机器人研究的主要部分,机器人的路径导航问题就是实现机器人在充满障碍的环境中找到一条从起始位置到目标位置的最佳或最优无碰撞路径。近些年来,有许多算法被提出用来解决路径导航问题。早期提出来的算法有模拟退火算法、人工势场法等。其中人工势场法在环境中引入了人工力场,具体做法是障碍物对机器人施加排斥力,目标位置对机器人施加引力,产生的合力决定了机器人的运动方向和速度,但是这种做法也存在缺陷,特别是当排斥力与引力相同时,机器人便很难找到合适的运动方向和速度。这些传统方法由于其 ...
【技术保护点】
【技术特征摘要】
1.机器人路径导航方法,其特征是,包括:获取机器人状态信息、障碍物信息以及目标位置信息;将获取的信息输入到训练后的DDPG网络模型中,得到机器人路径导航结果;根据导航结果,完成机器人路径导航;其中,DDPG网络模型通过dueling网络来计算Q值;其中,DDPG网络模型的奖励值通过奖励函数来计算,所述奖励函数中包含欧式距离与余弦距离的差值;其中,所述欧式距离,是指第一欧式距离与第二欧式距离之间的差值;所述第一欧式距离,是指机器人前一时刻所在的位置与目标位置之间的欧式距离,所述第二欧式距离,是指机器人当前时刻所在的位置与目标位置之间的欧式距离;其中,所述余弦距离,是指第一向量与第二向量之间的余弦距离;所述第一向量是指目标位置指向机器人当前时刻所在位置的向量;所述第二向量是指目标位置指向机器人前一时刻所在位置的向量。2.如权利要求1所述的机器人路径导航方法,其特征是,所述训练后的DDPG网络模型;训练步骤包括:(1):初始化Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络;(2):获取机器人状态信息S、障碍物信息以及目标位置信息;(3):将机器人状态信息S输入Actor当前网络,Actor当前网络对状态信息S进行处理,得到执行动作A;执行动作A加上服从正态分布的随机噪声,增强机器人的搜索能力;(4):机器人执行动作A,得到新状态S
’
,通过奖励函数得到奖励值R,将(S,A,S
’
,R,done)作为一条经验数据存入经验回放池中;(5):Critic当前网络从经验池中取出若干个样本,通过dueling网络计算当前目标Q值;并基于当前目标Q值计算损失函数,通过梯度反向传播来更新Critic当前网络中所有参数;(6):通过梯度反向传播来更新Actor当前网络中的所有参数;(7):基于Actor当前网络的网络参数对Actor目标网络的网络参数进行更新;基于Critic当前网络的网络参数对Critic目标网络的网络参数进行更新;(8):判断新状态S
’
是否是终止状态,如果是,则当前轮迭代完毕,否则,进入(3)。3.如权利要求2所述的机器人路径导航方法,其特征是,所述通过奖励函数得到奖励值R;具体过程为:其中,arrive代表到达目标位置,done代表碰撞到障碍物,R1代表由余弦距离得到的奖励值,R2代表由欧氏距离得出的奖励值。4.如权利要求3所述的机器人路径导航方法,其特征是,所述R1,计算过程为:
vec1=(current
x
‑
goal
x
,currrent
y
‑
goal
y
)vec2=(past
x
‑
goal
x
,past
y
‑
goal
y
)其中,(current
x
,current
y
)代表机器人的当前时刻所在的位置;(past
x
,past
y
)代表机器人的前一时刻所在的位置;vec1代表从目标位置指向当前时刻所在位置的向量;vec2代表从...
【专利技术属性】
技术研发人员:吕蕾,赵盼盼,周青林,嵇存,张宇昂,吕晨,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。