一种面向环境变化的移动机器人导航避障策略迁移方法及电子设备技术

技术编号：41742684 阅读：23 留言：0更新日期：2024-06-19 13:03

本发明专利技术公开了一种面向环境变化的移动机器人导航避障策略迁移方法，依靠对源环境的先验建模，在源环境中生成包含多个策略的源策略集合，当多个策略在源环境和目标环境中评估时的状态转移不一致时，通过选取起始状态和目标状态，在源环境中学习一个中间策略，将已知轨迹和中间策略产生的中间轨迹合并，得到新轨迹，使用模仿学习学习一个模仿该轨迹的新策略，加入源策略集合中，不断迭代该过程，直到找到一个迁移到目标环境中能成功完成任务的策略。本发明专利技术能够在源环境和目标环境不一致时，利用源场景的知识经验和少量目标环境成本获取能够成功完成目标环境任务的策略。本发明专利技术还提供一种电子设备。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及迁移强化学习下的域适应领域，特别是一种移动机器人完成导航避障任务过程中，面向环境变化的基于强化学习的多源策略迁移方法和电子设备。

技术介绍

1、移动机器人在现代社会中的工业、农业等众多领域都发挥着重要作用，导航避障技术是移动机器人研究的关键问题。通常面对移动机器人的导航方法需要通过对地图进行先验建模，再进行路径规划生成机器人的行为策略，而当环境发生变化时，原本训练得到的策略往往会在目标环境中失败，造成不良后果。基于强化学习的导航技术不需要依赖对地图的全局了解，但其作为一种试错学习，往往需要与环境大量的交互来获得复杂的行为策略，很难应用到错误代价高昂的领域，因此近年来涌现了很多使用迁移技术来减少训练成本，知识的迁移往往能够帮助机器学习模型更快地适应新场景。本专利技术关注迁移强化学习下的域适应问题，其定义为利用源环境中的交互和目标环境中的少量交互来获得在目标环境中收到高回报策略的问题，其中源环境通常是探索成本很低的电子模拟器，目标环境是探索成本高昂的现实应用场景。

2、目标环境由于各种不可预知的情况导致的环境变化，使得在源环境上训练出的策略很有可能在迁移后失败。目前一部分工作意在源环境训练出多条高质量且多样的策略，以便泛化到变化的目标环境当中。无监督策略学习算法diayn(diversity is all youneed)以无监督的方式生成一组策略，鼓励策略之间具备相互区别的状态；结构化最大熵强化学习smerl(structured maximum entropy reinforcement learnin

3、另一部分工作意在对齐策略在源环境和目标环境中产生的状态轨迹分布。具有数据聚合的策略调整pada(policy adaptation with data aggregation)根据在目标环境中恢复源环境中状态轨迹的主要思想，对目标环境和源环境的动态差距进行了直接建模，每次选择能够使轨迹差异最小的动作，但其假设预先训练的源策略在源环境中生成的状态轨迹同样能够在目标环境中获得高回报；顾问增强的观察模仿学习ailo(advisor-augmentedimitation learning from observations)将源环境轨迹作为专家经验，使用一个“顾问”选择动作，产生接近源环境下一状态的状态。这些工作的问题在于，复原源环境的状态轨迹无法保证其在目标环境中也能够完成任务。基于分类器奖励的领域自适应darc(domainadaptation with rewards from classifiers)算法则从概率推理的角度出发，使用少量的目标环境经验样本训练分类器，在源环境中训练时使用分类器对奖励进行修正，鼓励机器人生成策略，该策略能够在源域中与目标域中实现相同的轨迹。以上的算法只训练了单一的策略，没有充分利用源环境。

技术实现思路

1、本专利技术针对现有技术不足，提供一种面向环境变化的移动机器人导航避障策略迁移方法，依靠对源环境的先验建模，快速适应目标环境含有未知障碍的导航避障任务。本专利技术通过生成多个策略提高泛化能力，并在多个策略均无法完成目标任务的情况下，使用少量的目标环境成本，在源环境中对策略进行调整，使得调整后的新策略应用到目标环境中后，其生成的轨迹对比其在源环境中生成的轨迹不会出现状态转移不一致的情况，并且可以成功完成目标任务。

2、为了实现上述目的，本专利技术所采用的技术方案是：一种面向环境变化的移动机器人导航避障策略迁移方法，包括以下步骤：

3、步骤1).对作业环境进行建模，根据作业任务设置任务起点s和任务终点g；相同任务下源环境和目标环境的任务起点和任务终点是一致的；

4、步骤2).在源环境训练的不同回合中随机指定目标gr，训练从任务起点s到随机目标gr的策略π(st||gr)；

5、步骤3).训练完成后，在所述状态空间s中指定c组不同的必经状态序列，每组序列包含多个必经状态，按照序列顺序将必经状态依次替换为gr，驱使机器人按序到达所述必经状态，形成c条不同的轨迹；对于第i轨迹，使用模仿学习中的行为克隆算法实现一个能复现该轨迹的策略πi，存入初始策略集合π＝{π1,π2,…,πi,…,πc}中，i∈[1,c]；

6、步骤4).将所述初始策略集中的所有策略在源环境中进行一次评估，得到轨迹集合其中，ti∈[0,li]，li为轨迹τi的长度，li≤t，t为回合最大步数，是策略i在t时间步的状态，是策略i在t时间步采取的动作；

7、步骤5).将所述初始策略集中的第i个策略在目标环境中进行一次评估，评估的每一步都比较目标环境到达的状态跟源环境中到达的状态是否一致；当机器人到达源环境和目标环境中第一个状态转移不一致的位置时，将策略i在源环境中第t时间步的当前状态记为zi，添加zi到集合z中，将策略i在源环境中第t时间步到达的下一状态添加到集合b中；

8、步骤6).当机器人到达源环境和目标环境中第一个状态转移不一致的位置后，若将添加到集合b中；

9、其中，t<t'≤t，为动作空间，为策略i在目标环境中第t’时间步采取的动作，是策略i在t’时间步的当前状态，

10、为策略i在源环境中第t’时间步到达的下一状态，表示在状态空间中取使状态转移概率最大的状态st′+1，将st′+1赋值给是策略i在源环境中第t’时间步时的状态转移概率，

11、为策略i在目标环境中第t’时间步到达的下一状态，是当机器人在目标环境执行动作时所述目标环境反馈的状态；

12、步骤7).重复步骤6)，直到t′＝t；

13、步骤8).重复步骤5)、6)、7)，直到i＝c，集合z＝{z1,z2,…,zi,…,zc}；

14、步骤9).从机器人在源环境经过的轨迹集合中选择起始状态sr和目标状态e；所述起始状态sr＝zm，m＝argmini∈[1,c]dis(zi,g)，m表示在[1,c]内找到使dis(zi,g)最小的i值赋给m，dis(zi,g)为计算zi和g的距离函数；

15、所述目标状态e＝mins∈cdis(sr,s)，dis(sr,s)为计算sr和s的距离函数，x表示向量的第一维，y表本文档来自技高网...

【技术保护点】

1.一种面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤2)中，使用深度Q网络DQN算法训练从任务起点S到随机目标点gr的策略。

3.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤2)中，源环境奖励函数为rg是一个正常数，为指示函数，在满足st+1＝g时为1，st是t时间步的状态，at是t时间步采取的动作，st+1是t+1时间步的状态，

4.根据权利要求3所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤2)中，新的奖励函数设定如下：

5.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤5)中，目标环境到达的状态跟源环境中到达的状态是否一致的比较，具体步骤包括：

6.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，所述回合最大步数T设置为75。

7.根据权利要求1所述的面向环境变化的

8.根据权利要求7所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤10)中，当机器人完成目标环境中不会出现的状态转移时，赋予负奖励，所述负奖励函数如下：

9.一种电子设备，其特征在于，所述电子设备包括存储器、一个或多个处理器；所述存储器上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1～8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤2)中，使用深度q网络dqn算法训练从任务起点s到随机目标点gr的策略。

4.根据权利要求3所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤2)中，新的奖励函数设定如下：

5.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法，其特征在于，步骤5)中，目标环境到达的状态跟源环境中到达的状态是否一致的...

【专利技术属性】
技术研发人员：刘璇，彭冰洁，宋继冉，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人