一种最小化无用动作的节能性无人车路径导航方法技术

技术编号:28617403 阅读:36 留言:0更新日期:2021-05-28 16:12
本发明专利技术公开了一种最小化无用动作的节能性无人车路径导航方法,属于自主导航领域。节能性无人车路径导航方法包括以下步骤:步骤一、根据光流图像以及动作前一张光流图像预测出机器人执行的对应动作;步骤二、设置新的reward函数,根据过去一定“窗口”范围内的机器人动作序列以及当前的观测,预测出机器人目前应执行的动作从而进行躲避障碍,并在导航的同时减少多余无用的左右摇摆转向动作。本发明专利技术避免了传统SLAM方法中复杂繁琐的流程,通过视觉信息可以减少机器人强化学习决策过程中做出多余无用的摆动动作,从而提高导航的效率同时减少多余能量的消耗。

【技术实现步骤摘要】
一种最小化无用动作的节能性无人车路径导航方法
本专利技术涉及一种最小化无用动作的节能性无人车路径导航方法,属于自主导航领域。
技术介绍
自主导航是机器人技术研究的一个长期领域,它为移动机器人在人类日常相同环境中执行一系列任务提供了必不可少的功能。传统的基于视觉的导航方法通常会构建环境地图,然后使用路径规划来达到目标。它们通常依赖精确,高质量的立体摄像机和其他传感器(例如激光测距仪),并且通常对计算要求很高。传统的导航方法通常需要解决许多组件的问题,包括地图构建,运动规划和机器人低层控制。传统导航方法中运动规划对高质量几何地图、规划轨迹、以及完美定位的依赖,导致了这些方法复杂而繁琐,并且泛化能力差,必须针对特定环境进行调整。近年来,基于强化学习的方法已证明能够直接端到端的将原始传感器数据映射到控制命令。这种端到端的方法降低了实现的复杂性,并有效地利用了来自不同传感器(例如,深度相机,激光器)的输入数据,从而降低了成本,功耗和计算时间。另一个优点是输入数据和控制输出之间的端到端关系可以使用任意的非线性复杂模型,这在不同的控制问题(例如车道跟本文档来自技高网...

【技术保护点】
1.一种最小化无用动作的节能性无人车路径导航方法,其特征在于,节能性无人车路径导航方法包括以下步骤:/n步骤一、根据光流图像以及动作前一张光流图像预测出机器人执行的对应动作;/n步骤二、设置新的reward函数,根据过去前n个step长度范围内的机器人动作序列,即前几个时间步通过光流图像预测出的动作,以及当前的观测,预测出机器人目前应执行的动作从而进行躲避障碍,并在导航的同时减少多余无用的左右摇摆转向动作,其中,n≤10。/n

【技术特征摘要】
1.一种最小化无用动作的节能性无人车路径导航方法,其特征在于,节能性无人车路径导航方法包括以下步骤:
步骤一、根据光流图像以及动作前一张光流图像预测出机器人执行的对应动作;
步骤二、设置新的reward函数,根据过去前n个step长度范围内的机器人动作序列,即前几个时间步通过光流图像预测出的动作,以及当前的观测,预测出机器人目前应执行的动作从而进行躲避障碍,并在导航的同时减少多余无用的左右摇摆转向动作,其中,n≤10。


2.根据权利要求1所述的一种最小化无用动作的节能性无人车路径导航方法,其特征在于,在步骤一中,具体包括以下步骤:
步骤一一、机器人获取当前帧的RGB观测图像和上一帧的RGB观测图像;
步骤一二、基于所述当前帧的RGB观测图像和上一帧的RGB观测图像,通过LiteFlowNet来预测稠密光流;
步骤一三、在仿真环境中让机器人不断地做动作,保存计算得到的光流图像以及对应执行的动作类型标签生成训练数据集;
步骤一四、构建神经网络分类器,将数据集中的光流图像输入神经网络分类器中,预测出动作类型标签,并用监督学习的方式训练出一个动作分类器;
步骤一五、将上一次执行动作后得到的光流图像和上一帧光流观测图像输入至分类器中,得到当前动作预测结果。


3.根据权利要求2所述的一种最小化无用动作的节能性无人车路径导航方法,其特征在于,所述分类器由多层卷积层和全连接层构成,所述动作类型标签为光流图像对应的动作的类型。


4.根据权利要求1所述的一种最小化无用动作的节能性无人车路径导航方法,其特征在于,在步骤二中,具体包括以下步骤:
步骤二一、机器人在当前时刻t得到观测st,根据观测到的RGB-D观测图像,机器人通过Policy网络来预测出当前应执行的动作at,机器人执行at动作与环境进行交互,同时环境反馈给at动作一个reward,并得到新的观测st+1并进行新一轮的动作预测,重复该过程直到机器人到达给定的目标位置点,通过强化学习训练Policy网络,使其预测出的动作获得更多reward,学习导航能力;
步骤二二、在Policy网络中,加入光流分支预测机器人上一次的动作,并将其加入到一个过去动作序列中用来计算新的reward函数;
步骤二三、将通过RGB-D分支卷积层提取得到的RGB-D图像特征向量、光流分支预测的动作嵌入向量以及目标位置信息连接到一起,并将连接到一起的信息输入到动作决策网络中预测出当前应当执行的动作;
步骤二四、根据新的惩罚reward函数继续训练Policy网络,使其构建起当前预测动作与过去一段时...

【专利技术属性】
技术研发人员:李治军高铭浩王勃然金晶
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1