一种基于多粒度强化学习的六足机器人导航方法技术

技术编号：19902362 阅读：120 留言：0更新日期：2018-12-26 02:36

本发明专利技术提供了一种基于多粒度强化学习的六足机器人导航方法，步骤包括：由机器人对环境进行初次学习，得到细粒度条件的环境信息，再利用Q学习算法得到状态动作表；使用多粒度强化学习算法将原来的细粒度的状态动作表转化为粗粒度的状态动作表；使用多粒度迁移学习算法以及粗化后的状态动作表，对细粒度下的新环境进行重新学习和建图，再进行Q学习获得新环境下的状态动作集合；利用新环境下的状态动作集合对六足机器人进行实时导航控制。该六足机器人导航方法通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作，并以此为基础，提高对变化环境的适应性；利用多粒度迁移学习机制，提高在环境变化的情况下的导航效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多粒度强化学习的六足机器人导航方法
本专利技术涉及一种六足机器人导航方法，尤其是一种基于多粒度强化学习的六足机器人导航方法。
技术介绍
多足机器人其腿部具有多个自由度使运动的灵活性大大增强，因此具有更强的地形适应能力。与轮式、履带式移动机器人相比，多足机器人在地形不规则和崎岖不平等非结构性环境下的运输任务执行，跨越障碍有着明显的优势，在军事侦察、矿山开采、核能工业、星球探测、消防及营救、建筑业等领域有着广阔的应用前景。因此可以将多足机器人应用到写字楼配送中，但是写字楼地形环境由于人为因素存在可变性，因此有必要设计出一种基于多粒度强化学习的六足机器人导航方法，能够在环境变化的情况下依然能够进行实时环境导航。
技术实现思路
本专利技术的目的在于：提供一种基于多粒度强化学习的六足机器人导航方法，能够在环境变化的情况下依然能够进行实时环境导航。为了实现上述专利技术目的，本专利技术提供了一种基于多粒度强化学习的六足机器人导航方法，包括如下步骤：步骤1，由机器人对环境进行初次学习，得到详细的细粒度条件的环境信息，再结合Q学习算法得到状态动作表；步骤2，当所处环境存在变化时...

【技术保护点】
1.一种基于多粒度强化学习的六足机器人导航方法，其特征在于，包括如下步骤：步骤1，由机器人对环境进行初次学习，得到详细的细粒度条件的环境信息，再结合Q学习算法得到状态动作表；步骤2，当所处环境存在变化时，使用多粒度强化学习算法对所处新环境进行粗化，在粗化环境下，将原来的细粒度的状态动作表转化为粗粒度的状态动作表；步骤3，使用多粒度迁移学习算法以及粗化后的状态动作表，对细粒度下的新环境进行重新学习和建图，将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下，作为细粒度强化的初始条件，再进行Q学习获得新环境下的状态动作集合；步骤4，利用新环境下的状态动作集合对六足机器人进行实时导航控制。

【技术特征摘要】
1.一种基于多粒度强化学习的六足机器人导航方法，其特征在于，包括如下步骤：步骤1，由机器人对环境进行初次学习，得到详细的细粒度条件的环境信息，再结合Q学习算法得到状态动作表；步骤2，当所处环境存在变化时，使用多粒度强化学习算法对所处新环境进行粗化，在粗化环境下，将原来的细粒度的状态动作表转化为粗粒度的状态动作表；步骤3，使用多粒度迁移学习算法以及粗化后的状态动作表，对细粒度下的新环境进行重新学习和建图，将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下，作为细粒度强化的初始条件，再进行Q学习获得新环境下的状态动作集合；步骤4，利用新环境下的状态动作集合对六足机器人进行实时导航控制。2.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法，其特征在于，步骤1中，得到状态动作表的具体步骤为：步骤1.1，在Matlab中建立六足机器人导航模型和所处环境模型；步骤1.2，利用策略值函数来描述导航过程的预期收益为：Qπ(st,at)＝E[Rt|st,at](1)式(1)中，Rt为时刻t获得的折扣后的未来收益总和，π为避障的目标策略，由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为动作空间，st为状态空间S中的参数，at为动作空间A中的参数，再利用贝尔曼方程对式(1)进行处理得到：Q*(st,at)＝E[r(st,at)+γmaxQ*(st+1,a't+1)](2)式(...

【专利技术属性】
技术研发人员：陈春林，王岚，王子辉，任其成，唐开强，朱长青，辛博，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人