当前位置: 首页 > 专利查询>唐开强专利>正文

一种基于深度强化学习的六足机器人实时步态规划方法技术

技术编号:16754428 阅读:115 留言:0更新日期:2017-12-09 01:28
本发明专利技术提供了一种基于深度强化学习的六足机器人实时步态规划方法,步骤包括:由六足机器人获取环境路况信息并制定整体的运动轨迹;通过摄像头获取环境的照片,再根据照片利用双目测距方法计算出目标轨迹的路况信息,并将计算出的轨迹路况信息用于机器人质心运动轨迹导航;在机器人腿的足端摆动空间范围内,拍摄路况环境的照片,并通过预先训练过的基于深度确定性策略梯度(DDPG)的深度强化学习网络对照片进行数据降维和特征提取;根据特征提取结果得出六足机器人的控制策略,六足机器人根据控制策略来控制机器人的落足,实现六足机器人的实时行走。该步态规划的方法能够对路况复杂的非结构环境进行实时规划,对提高六足机器人的环境适应能力具有重要意义。

A real-time gait planning method for six legged robot based on deep reinforcement learning

The invention provides a depth of reinforcement learning six legged robot gait planning method, based on the six legged robot comprises the following steps: acquiring environmental traffic information and make the trajectory of the whole; get pictures of the environment through the camera, according to photos by binocular ranging method to calculate the target track traffic information, traffic information and track the calculated centroid trajectory for robot navigation in robot; foot end swing space range, shooting photos of the road environment, and through the depth of deterministic strategy based on gradient pre trained (DDPG) depth of reinforcement learning data dimensionality reduction and feature extraction of photo network; control strategy based on feature extraction results of six feet the robot, six legged robot to control the robot control strategy based on the foot, the realization of the six legged robot. When you walk. The gait planning method can real-time plan complex non structural environment, and is of great significance for improving the adaptability of the six legged robot.

【技术实现步骤摘要】
一种基于深度强化学习的六足机器人实时步态规划方法
本专利技术涉及一种六足机器人实时步态规划的方法,尤其是一种基于深度强化学习的六足机器人实时步态规划方法。
技术介绍
机器人技术是材料学、机构学、仿生学、机电一体化技术、控制技术、传感器技术、人工智能等学科的高度集成,是国家工业发展水平和科技实力的重要体现。自主完成步态规划的多足仿生机器人是高度智能化的移动机器人,能够对外界环境的自主学习和完成步态规划。路况环境复杂多样,六足机器人传统预先编程的步态规划方法存在很大的局限性。为了提高六足机器人的环境适应能力,六足机器人需要完成各种基本的作业任务比如整体移动导航、质心移动轨迹规划和落脚点选取的功能。通过多足机器人融合卫星导航和多传感器的信息来进行机器学习(如深度学习和强化学习),与外界环境进行交互,特别是如何在经验学习中改善目标的性能,实现其感知、决策和行动等各项功能。六足机器人的相关研究一直备受各国专家学者的关注,但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。
技术实现思路
本专利技术要解决的技术问题是现有的六足机器人步态规划技术无法适应复杂的地形环境、以及远距离自主本文档来自技高网...
一种基于深度强化学习的六足机器人实时步态规划方法

【技术保护点】
一种基于深度强化学习的六足机器人实时步态规划方法,其特征在于,包括如下步骤:步骤1,由六足机器人通过卫星地图获取环境路况信息,并根据环境路况信息制定整体运动轨迹;步骤2,六足机器人利用安装在机身上的摄像头获取周边环境照片,再根据周边环境照片利用双目测距方法计算出运动轨迹的目标位置信息,并由六足机器人根据运动轨迹的目标位置信息规划出机器人质心运动轨迹;步骤3,六足机器人根据机器人质心运动轨迹进行移动,并在机器人腿的足端摆动空间范围内,利用安装在机身上的摄像头拍摄路况环境照片,并通过预先训练过的基于DDPG的深度强化学习网络来对路况环境照片进行数据降维和特征提取;步骤4,六足机器人根据数据降维和特...

【技术特征摘要】
1.一种基于深度强化学习的六足机器人实时步态规划方法,其特征在于,包括如下步骤:步骤1,由六足机器人通过卫星地图获取环境路况信息,并根据环境路况信息制定整体运动轨迹;步骤2,六足机器人利用安装在机身上的摄像头获取周边环境照片,再根据周边环境照片利用双目测距方法计算出运动轨迹的目标位置信息,并由六足机器人根据运动轨迹的目标位置信息规划出机器人质心运动轨迹;步骤3,六足机器人根据机器人质心运动轨迹进行移动,并在机器人腿的足端摆动空间范围内,利用安装在机身上的摄像头拍摄路况环境照片,并通过预先训练过的基于DDPG的深度强化学习网络来对路况环境照片进行数据降维和特征提取;步骤4,六足机器人根据数据降维和特征提取结果得出六足机器人的控制策略,并根据控制策略来控制六足机器人每个关节驱动机构完成关节自由度运动,从而实现六足机器的实时步态规划行走。2.根据权利要求1所述的基于深度强化学习的六足机器人实时步态规划方法,其特征在于,步骤2中根据照片利用双目测距方法计算出运动轨迹的实时位置信息的具体步骤为:步骤2.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及路况中运动轨迹上的目标点在左右两个摄像头的像平面的投影点到各自像平面最左侧的物理距离xl和xr,左右两个摄像头对应的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头的光心投影分别位于相应像平面的中心处,即Ol、Or在成像平面的投影点,则视差d为:d=xl-xr(1)步骤2.2,利用三角形相似原理建立Q矩阵为:式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,cx和cy分别为左侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,cx'为cx的修正值;步骤2.3,计算得到目标点到成像平面的空间距离为:1将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X,Y,Z)作为运动轨迹的目标位置信息。3.根据权利要求1或2所述的基于深度强化学习的六足机器人实时步态规划方法,其特征在于,步骤3中通过预先训练过的基于DDPG的深度强化学习网络来对路况环境照片进行数据降维和特征提取的具体步骤为:步骤3.1,利用目标足端自主选择落脚点过程符合强化学习且满足马尔科夫性质的条件,计算t时刻之前的观察量和动作的集合为:st=(x1,a1,...,at-1,xt)=xt(5)式(5)中,xt和at分别为t时刻的观察量以及所采取的动作;步骤3.2,利用策略值函数来描述足端自主选择落脚点过程的预期收益为:Qπ(st,at)=E[Rt|...

【专利技术属性】
技术研发人员:唐开强刘佳生洪俊孙建侯跃南钱勇潘东旭
申请(专利权)人:唐开强
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1