一种仿蛇搜救机器人适应性步态自主涌现方法技术

技术编号:21047305 阅读:32 留言:0更新日期:2019-05-07 23:57
本发明专利技术公开了一种仿蛇搜救机器人适应性步态自主涌现方法,针对仿蛇搜救机器人的特殊机械结构及其所处复杂动态非结构环境,使用深度强化学习理论设计相应的步态自主学习方法。此方法应用于仿蛇搜救机器人,可以通过不断从环境中获取信息生成最优控制策略,实现在复杂非结构的救援现场中仿蛇搜救机器人的适应性步态自主涌现。该方法使用分布式并行近似策略优化,将多个仿蛇搜救机器人间策略经验相互共享,实现对未知救援环境的快速适应性学习。本发明专利技术解决传统强化学习方法不能适应复杂非结构环境以及算法收敛速度慢、稳定性差等问题,更切合实际,能够使仿蛇搜救机器人在搜救任务中自主生成适应性最优步态。

An Adaptive Gait Autonomous Emergence Method for Snake-like Search and Rescue Robot

The invention discloses an adaptive gait autonomous emergence method for a snake-like search and rescue robot. Aiming at the special mechanical structure of the snake-like search and rescue robot and its complex dynamic and unstructured environment, the depth reinforcement learning theory is used to design the corresponding gait autonomous learning method. This method is applied to the snake-like search and rescue robot, and the adaptive gait of the snake-like search and rescue robot can emerge independently in the complex and unstructured rescue scene by continuously obtaining information from the environment to generate the optimal control strategy. This method uses distributed parallel approximation strategy optimization to share strategy experience among multiple snake-like search and rescue robots, and achieves fast adaptive learning for unknown rescue environment. The invention solves the problems that the traditional reinforcement learning method can not adapt to complex unstructured environment, slow convergence speed and poor stability of the algorithm, is more practical, and can enable the snake-like search and rescue robot to generate the adaptive optimal gait independently in the search and rescue task.

【技术实现步骤摘要】
一种仿蛇搜救机器人适应性步态自主涌现方法
本专利技术涉及仿生机器人
,具体地说是指一种仿蛇搜救机器人适应性步态自主涌现方法。技术背景智能化的仿生机器人,尤其是仿蛇搜救机器人已被证明是拥有广泛用途的机器人。仿蛇搜救机器人具有稳定性好、横截面小、柔性等特点,能在各种粗糙、陡峭、崎岖的复杂地形上行走,并可攀爬障碍物,这是以轮子或腿作为行走工具的机器人难以做到的。受生物蛇的启发,仿蛇搜救机器人不是利用轮子,而是利用模块之间的相对转动,使身体弯曲伸张实现运动。可以由多种执行器结构实现驱动,目前大多利用伺服电机驱动。仿蛇搜救机器人由多个相同的模块构成,各节有独立的驱动系统。采用统一的车厢式结构和活动坐标式运动方式依靠躯体和地面间的相互作用实现驱动,它有多种运动形式,前进的动力和机构的运动形式有密切的关系。从运动角度考虑,它至少要有两节模块相连。如果有特殊的传感器、执行器、电池时,它需要头和尾两模块。模块之间连接可以用关节或简单的刚性连接。由于模块化结构的特点,仿蛇搜救机器人具有很高的灵活性,且可靠性和维护性高,适于在搜救任务中复杂多变的恶劣环境下作业。仿蛇搜救机器人多冗余的结构特性,使本文档来自技高网...

【技术保护点】
1.一种仿蛇搜救机器人适应性步态自主涌现方法,其特征在于:包含以下步骤:步骤1.1基于动态高斯参数空间探索机理,构建用于仿蛇搜救机器人步态生成的深度高斯策略网络,以及用于评价控制策略优劣的深度高斯估值网络;步骤1.2建立仿蛇搜救机器人经验共享体系,使用异步并行经验共享池收集多个机器人从搜救任务获取的信息、对应奖赏信号及其自身位姿关节状态信息;步骤1.3设计基于策略梯度估计的本地近似策略优化器,对步骤1.1中的深度高斯策略网络进行训练,得到局部优化的仿蛇搜救机器人步态控制策略;步骤1.4根据步骤1.2中的异步经验共享池与步骤1.3的本地近似策略优化器,构建仿蛇搜救机器人全局策略优化器,针对当前对...

【技术特征摘要】
1.一种仿蛇搜救机器人适应性步态自主涌现方法,其特征在于:包含以下步骤:步骤1.1基于动态高斯参数空间探索机理,构建用于仿蛇搜救机器人步态生成的深度高斯策略网络,以及用于评价控制策略优劣的深度高斯估值网络;步骤1.2建立仿蛇搜救机器人经验共享体系,使用异步并行经验共享池收集多个机器人从搜救任务获取的信息、对应奖赏信号及其自身位姿关节状态信息;步骤1.3设计基于策略梯度估计的本地近似策略优化器,对步骤1.1中的深度高斯策略网络进行训练,得到局部优化的仿蛇搜救机器人步态控制策略;步骤1.4根据步骤1.2中的异步经验共享池与步骤1.3的本地近似策略优化器,构建仿蛇搜救机器人全局策略优化器,针对当前对应的搜救环境信息对多个机器人的本地策略优化进行全局优化调整,生成相应的最优适应性步态,完成整个仿蛇搜救机器人适应性步态自主涌现方法的设计。2.根据权利要求1所述的一种仿蛇搜救机器人适应性步态自主涌现方法,其特征在于:步骤1.1的具体实施过程如下,步骤1.1.1从高斯分布N(μ,σ×∈)中对深度神经网络参数进行随机采样,其中μ和σ分别为高斯随机过程的均值和方差,ε为对角单位矩阵;在单次策略更新过程中将网络参数保持不变;经过高斯采样的网络参数可表示为:ζ=μ+σ×∈;相应的深度高斯网络全连接层单个神经元输出通过以下公式计算:y=f(ζwx+ζb),f(·)为对应神经网络非线性激活函数,w和b分别表示神经网络权值与偏置;步骤1.1.2使用统计学中的相对熵原理对每次采样的随机参数进行限制;通过使用相对熵公式其中DKL(·)代表相对熵距离,πθ为对应神经网络策略,计算每次采样后深度高斯网络的概率分布变化,当采样前后的相对熵时,其中κ为预期的策略更新步长,将采样的参数进行相应比例缩放后,作为最终的高斯网络参数;步骤1.1.3根据步骤1.1.2中生成的深度高斯网络参数,分别构建深度高斯估值网络和深度高斯策略网络。3....

【专利技术属性】
技术研发人员:曹政才肖清黄冉胡标张东耿鹏李俊宽
申请(专利权)人:北京化工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1