一种导航寻路方法、机器人及系统技术方案

技术编号:15690178 阅读:159 留言:0更新日期:2017-06-24 02:21
本发明专利技术提供一种导航寻路方法、机器人及系统,所述方法通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做寻路运动,所述寻路数据根据所述采集设备在寻路应用过程中采集的数据和所述导航目标得到。本发明专利技术的导航寻路方法、机器人及系统的导航寻路的准确性更高。

Navigation route finding method, robot and system

The present invention provides a navigation path finding method, and robot system, the method of environmental information in the training process through acquisition equipment acquisition robot, and according to the training process of environmental information to generate training data; the training data of the depth of the reinforcement learning method to train the neural network to the depth. The depth of the trained neural network is adapted according to the routing data and decision analysis, indicating that the robot motion to wayfinding navigation target, the routing according to the data acquisition device in the navigation target and wayfinding applications in the process of collecting data. The navigation path finding method of the invention, and the accuracy of navigation and navigation of the robot and the system are higher.

【技术实现步骤摘要】
一种导航寻路方法、机器人及系统
本专利技术涉及机器人
,尤其涉及一种导航寻路方法、机器人及系统。
技术介绍
在机器人
中,机器人导航寻路的应用越来越多。机器人导航寻路是自主移动机器人导航功能的重要问题之一,机器人导航寻路的目的是使机器人在应用环境中,无碰撞的到达目的地。现有的机器人导航寻路的准确性有待提升。
技术实现思路
本专利技术解决的技术问题是提升机器人导航寻路的准确性。为解决上述技术问题,本专利技术实施例提供一种导航寻路方法,通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做寻路运动,所述寻路数据根据所述采集设备在寻路应用过程中采集的数据和所述导航目标得到。可选的,所述采集设备包括以下一种或多种:超声采集设备、激光采集设备、雷达、红外采集设备、超宽带采集设备、摄像头和3D体感摄影机。可选的,所述生成训练数据的过程包括:确定所述训练运动过程包含的至少一个运动操作,所述运动操作根据对应的运动数据的指示完成;确定每一运动操作的运动前状态数据和运动后状态数据,所述运动前状态数据包括所述运动操作执行前的环境信息,所述运动后状态数据包括所述运动操作执行后的环境信息;根据所述运动前状态数据和所述运动后状态数据计算反馈奖励数值;将所述运动数据及其运动前状态数据、运动后状态数据以及反馈奖励数值作为所述训练数据。可选的,所述利用所述训练数据训练深度神经网络包括:将所述训练数据中的所述运动前状态数据送入所述深度神经网络并进行前向传播,以获取所述训练数据中的所述运动数据的价值函数值,所述运动数据的价值函数值用于评价所述机器人进行的运动操作在导航全程中对于到达训练目标的价值;将所述训练数据中的运动后状态数据送入所述深度神经网络并进行前向传播,以获得所述深度神经网络输出的各个所述运动数据的价值函数值;根据所述深度神经网络输出的各个所述运动数据的价值函数值中的最大值,以及所述运动数据的反馈奖励数值,计算目标价值函数值;根据所述训练数据、所述运动数据的价值函数值以及所述目标价值函数值进行反向传播,以更新所述深度神经网络的参数;根据上述步骤迭代更新所述深度神经网络的参数,直至所述深度神经网络达到收敛。可选的,所述计算反馈奖励数值包括:根据所述运动前状态数据和所述运动后状态数据,分别获取所述运动操作前后所述机器人与障碍物的距离,并且分别获取所述运动操作前后所述机器人与训练目标信息的距离;根据所述运动操作前后所述机器人与障碍物的距离和所述运动操作前后所述机器人与训练目标信息的距离,计算所述反馈奖励数值。可选的,依据以下公式计算所述反馈奖励数值r:其中,β、δ均为调整系数,TD1表征所述运动操作前所述机器人与训练目标的距离,TD2表征所述运动操作后所述机器人与训练目标的距离,OD1表征所述机器人在执行所述运动操作之前与障碍物的距离,OD2表征所述机器人在执行所述运动操作之后与障碍物的距离。可选的,在所述反向传播的过程中采用minibatch梯度下降法。可选的,所述深度神经网络的输出的各个所述运动数据选自预设的运动集合。可选的,根据贝尔曼方程计算所述目标价值函数值。可选的,使用贪心探索算法产生所述运动数据。可选的,所述运动前状态数据还包括以下至少一种:当前朝向信息、当前速度信息、当前加速度信息、当前位置信息、训练目标信息;所述运动后状态数据包括以下至少一种:运动后朝向信息、运动后速度信息、运动后加速度信息和运动后位置信息。可选的,所述导航寻路方法还包括:a:将所述寻路数据送入训练后的所述深度神经网络并进行前向传播,以得到最优运动数据;b:使用所述最优运动数据指示所述机器人向导航目标做寻路运动。可选的,所述向导航目标做寻路运动之后,还包括:确定所述机器人是否到达导航目标,若是,则导航结束;若否,则重复执行上述步骤a和b做寻路运动,直至到达所述导航目标。可选的,所述训练数据和所述寻路数据中均还包括地图数据。本专利技术实施例还提供一种导航寻路机器人,包括:训练数据生成单元,适于通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;深度神经网络训练单元,适于利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做寻路运动,所述寻路数据根据所述采集设备在寻路应用过程中采集的数据和所述导航目标得到。可选的,所述训练数据生成单元包括:运动操作确定单元,适于确定所述训练运动过程包含的至少一个运动操作,所述运动操作根据对应的运动数据的指示完成;状态数据确定单元,适于确定每一运动操作的运动前状态数据和运动后状态数据,所述运动前状态数据包括所述运动操作执行前的环境信息,所述运动后状态数据包括所述运动操作执行后的环境信息;反馈奖励数值计算单元,适于根据所述运动前状态数据和所述运动后状态数据计算反馈奖励数值;训练数据确定单元,适于将所述运动数据及其运动前状态数据、运动后状态数据以及反馈奖励数值作为所述训练数据。可选的,所述深度神经网络训练单元包括:第一前向传播单元,适于将所述训练数据中的所述运动前状态数据送入所述深度神经网络并进行前向传播,以获取所述训练数据中的所述运动数据的价值函数值,所述运动数据的价值函数值用于评价所述机器人进行的运动操作在导航全程中对于到达训练目标的价值;第二前向传播单元,适于将所述训练数据中的运动后状态数据送入所述深度神经网络并进行前向传播,以获得所述深度神经网络输出的各个所述运动数据的价值函数值;目标价值函数值计算单元,适于根据所述深度神经网络输出的各个所述运动数据的价值函数值中的最大值,以及所述运动数据的反馈奖励数值,计算目标价值函数值;参数更新单元,适于根据所述训练数据、所述运动数据的价值函数值以及所述目标价值函数值进行反向传播,以更新所述深度神经网络的参数;迭代控制单元,适于控制所述参数更新单元基于所述第一前向传播单元、第二前向传播单元、目标价值函数值计算单元更新所述神经网络的参数,直至所述深度神经网络达到收敛。可选的,所述反馈奖励数值计算单元包括:距离获取单元,适于根据所述运动前状态数据和所述运动后状态数据,分别获取所述运动操作前后所述机器人与障碍物的距离,并且分别获取所述运动操作前后所述机器人与训练目标信息的距离;运算单元,适于根据所述运动操作前后所述机器人与障碍物的距离和所述运动操作前后所述机器人与训练目标信息的距离,计算所述反馈奖励数值。可选的,所述运算单元依据以下公式计算所述反馈奖励数值r:其中,β、δ均为调整系数,TD1表征所述运动操作前所述机器人与训练目标的距离,TD2表征所述运动操作后所述机器人与训练目标的距离,OD1表征所述机器人在执行所述运动操作之前与障碍物的距离,OD2表征所述机器人在执行所述运动操作之后与障碍物的距离。可选的,所述参数更新单元,适于在所述反向传播的过程中采用minibatch梯度下降法。可选的,所述深度神经网络的输出的各个所述运动数据选自预设的运动集合。可选的,所述目标价本文档来自技高网...
一种导航寻路方法、机器人及系统

【技术保护点】
一种导航寻路方法,其特征在于,包括:通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做寻路运动,所述寻路数据根据所述采集设备在寻路应用过程中采集的数据和所述导航目标得到。

【技术特征摘要】
1.一种导航寻路方法,其特征在于,包括:通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做寻路运动,所述寻路数据根据所述采集设备在寻路应用过程中采集的数据和所述导航目标得到。2.根据权利要求1所述的导航寻路方法,其特征在于,所述采集设备包括以下一种或多种:超声采集设备、激光采集设备、雷达、红外采集设备、超宽带采集设备、摄像头和3D体感摄影机。3.根据权利要求1所述的导航寻路方法,其特征在于,所述生成训练数据的过程包括:确定所述训练运动过程包含的至少一个运动操作,所述运动操作根据对应的运动数据的指示完成;确定每一运动操作的运动前状态数据和运动后状态数据,所述运动前状态数据包括所述运动操作执行前的环境信息,所述运动后状态数据包括所述运动操作执行后的环境信息;根据所述运动前状态数据和所述运动后状态数据计算反馈奖励数值;将所述运动数据及其运动前状态数据、运动后状态数据以及反馈奖励数值作为所述训练数据。4.根据权利要求3所述的导航寻路方法,其特征在于,所述利用所述训练数据训练深度神经网络包括:将所述训练数据中的所述运动前状态数据送入所述深度神经网络并进行前向传播,以获取所述训练数据中的所述运动数据的价值函数值,所述运动数据的价值函数值用于评价所述机器人进行的运动操作在导航全程中对于到达训练目标的价值;将所述训练数据中的运动后状态数据送入所述深度神经网络并进行前向传播,以获得所述深度神经网络输出的各个所述运动数据的价值函数值;根据所述深度神经网络输出的各个所述运动数据的价值函数值中的最大值,以及所述运动数据的反馈奖励数值,计算目标价值函数值;根据所述训练数据、所述运动数据的价值函数值以及所述目标价值函数值进行反向传播,以更新所述深度神经网络的参数;根据上述步骤迭代更新所述深度神经网络的参数,直至所述深度神经网络达到收敛。5.根据权利要求3或4所述的导航寻路方法,其特征在于,所述计算反馈奖励数值包括:根据所述运动前状态数据和所述运动后状态数据,分别获取所述运动操作前后所述机器人与障碍物的距离,并且分别获取所述运动操作前后所述机器人与训练目标信息的距离;根据所述运动操作前后所述机器人与障碍物的距离和所述运动操作前后所述机器人与训练目标信息的距离,计算所述反馈奖励数值。6.根据权利要求5所述的导航寻路方法,其特征在于,依据以下公式计算所述反馈奖励数值r:其中,β、δ均为调整系数,TD1表征所述运动操作前所述机器人与训练目标的距离,TD2表征所述运动操作后所述机器人与训练目标的距离,OD1表征所述机器人在执行所述运动操作之前与障碍物的距离,OD2表征所述机器人在执行所述运动操作之后与障碍物的距离。7.根据权利要求4所述的导航寻路方法,其特征在于,在所述反向传播的过程中采用minibatch梯度下降法。8.根据权利要求4所述的导航寻路方法,其特征在于,所述深度神经网络的输出的各个所述运动数据选自预设的运动集合。9.根据权利要求4所述的导航寻路方法,其特征在于,根据贝尔曼方程计算所述目标价值函数值。10.根据权利要求3所述的导航寻路方法,其特征在于,使用贪心探索算法产生所述运动数据。11.根据权利要求3所述的导航寻路方法,其特征在于,所述运动前状态数据还包括以下至少一种:当前朝向信息、当前速度信息、当前加速度信息、当前位置信息、训练目标信息;所述运动后状态数据包括以下至少一种:运动后朝向信息、运动后速度信息、运动后加速度信息和运动后位置信息。12.根据权利要求1所述的导航寻路方法,其特征在于,还包括:a:将所述寻路数据送入训练后的所述深度神经网络并进行前向传播,以得到最优运动数据;b:使用所述最优运动数据指示所述机器人向导航目标做寻路运动。13.根据权利要求12所述的导航寻路方法,其特征在于,所述向导航目标做寻路运动之后,还包括:确定所述机器人是否到达导航目标,若是,则导航结束;若否,则重复执行上述步骤a和b做寻路运动,直至到达所述导航目标。14.根据权利要求1所述的导航寻路方法,其特征在于,所述训练数据和所述寻路数据中均还包括地图数据。15.一种导航寻路机器人,其特征在于,包括:训练数据生成单元,适于通过采集设备采集机器人在训练运动过程中的环境信息,并根据所述训练运动过程中的环境信息生成训练数据;深度神经网络训练单元,适于利用所述训练数据采用深度强化学习的方法训练深度神经网络,以使训练后的所述深度神经网络适于根据寻路数据进行决策分析,并指示所述机器人向导航目标做...

【专利技术属性】
技术研发人员:陈晓禾任杰
申请(专利权)人:无锡辰星机器人科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1