【技术实现步骤摘要】
本专利技术涉及迁移强化学习下的域适应领域,特别是一种移动机器人完成导航避障任务过程中,面向环境变化的基于强化学习的多源策略迁移方法和电子设备。
技术介绍
1、移动机器人在现代社会中的工业、农业等众多领域都发挥着重要作用,导航避障技术是移动机器人研究的关键问题。通常面对移动机器人的导航方法需要通过对地图进行先验建模,再进行路径规划生成机器人的行为策略,而当环境发生变化时,原本训练得到的策略往往会在目标环境中失败,造成不良后果。基于强化学习的导航技术不需要依赖对地图的全局了解,但其作为一种试错学习,往往需要与环境大量的交互来获得复杂的行为策略,很难应用到错误代价高昂的领域,因此近年来涌现了很多使用迁移技术来减少训练成本,知识的迁移往往能够帮助机器学习模型更快地适应新场景。本专利技术关注迁移强化学习下的域适应问题,其定义为利用源环境中的交互和目标环境中的少量交互来获得在目标环境中收到高回报策略的问题,其中源环境通常是探索成本很低的电子模拟器,目标环境是探索成本高昂的现实应用场景。
2、目标环境由于各种不可预知的情况导致的环境变化,使得在源环境上训练出的策略很有可能在迁移后失败。目前一部分工作意在源环境训练出多条高质量且多样的策略,以便泛化到变化的目标环境当中。无监督策略学习算法diayn(diversity is all youneed)以无监督的方式生成一组策略,鼓励策略之间具备相互区别的状态;结构化最大熵强化学习smerl(structured maximum entropy reinforcement learnin
3、另一部分工作意在对齐策略在源环境和目标环境中产生的状态轨迹分布。具有数据聚合的策略调整pada(policy adaptation with data aggregation)根据在目标环境中恢复源环境中状态轨迹的主要思想,对目标环境和源环境的动态差距进行了直接建模,每次选择能够使轨迹差异最小的动作,但其假设预先训练的源策略在源环境中生成的状态轨迹同样能够在目标环境中获得高回报;顾问增强的观察模仿学习ailo(advisor-augmentedimitation learning from observations)将源环境轨迹作为专家经验,使用一个“顾问”选择动作,产生接近源环境下一状态的状态。这些工作的问题在于,复原源环境的状态轨迹无法保证其在目标环境中也能够完成任务。基于分类器奖励的领域自适应darc(domainadaptation with rewards from classifiers)算法则从概率推理的角度出发,使用少量的目标环境经验样本训练分类器,在源环境中训练时使用分类器对奖励进行修正,鼓励机器人生成策略,该策略能够在源域中与目标域中实现相同的轨迹。以上的算法只训练了单一的策略,没有充分利用源环境。
技术实现思路
1、本专利技术针对现有技术不足,提供一种面向环境变化的移动机器人导航避障策略迁移方法,依靠对源环境的先验建模,快速适应目标环境含有未知障碍的导航避障任务。本专利技术通过生成多个策略提高泛化能力,并在多个策略均无法完成目标任务的情况下,使用少量的目标环境成本,在源环境中对策略进行调整,使得调整后的新策略应用到目标环境中后,其生成的轨迹对比其在源环境中生成的轨迹不会出现状态转移不一致的情况,并且可以成功完成目标任务。
2、为了实现上述目的,本专利技术所采用的技术方案是:一种面向环境变化的移动机器人导航避障策略迁移方法,包括以下步骤:
3、步骤1).对作业环境进行建模,根据作业任务设置任务起点s和任务终点g;相同任务下源环境和目标环境的任务起点和任务终点是一致的;
4、步骤2).在源环境训练的不同回合中随机指定目标gr,训练从任务起点s到随机目标gr的策略π(st||gr);
5、步骤3).训练完成后,在所述状态空间s中指定c组不同的必经状态序列,每组序列包含多个必经状态,按照序列顺序将必经状态依次替换为gr,驱使机器人按序到达所述必经状态,形成c条不同的轨迹;对于第i轨迹,使用模仿学习中的行为克隆算法实现一个能复现该轨迹的策略πi,存入初始策略集合π={π1,π2,…,πi,…,πc}中,i∈[1,c];
6、步骤4).将所述初始策略集中的所有策略在源环境中进行一次评估,得到轨迹集合其中,ti∈[0,li],li为轨迹τi的长度,li≤t,t为回合最大步数,是策略i在t时间步的状态,是策略i在t时间步采取的动作;
7、步骤5).将所述初始策略集中的第i个策略在目标环境中进行一次评估,评估的每一步都比较目标环境到达的状态跟源环境中到达的状态是否一致;当机器人到达源环境和目标环境中第一个状态转移不一致的位置时,将策略i在源环境中第t时间步的当前状态记为zi,添加zi到集合z中,将策略i在源环境中第t时间步到达的下一状态添加到集合b中;
8、步骤6).当机器人到达源环境和目标环境中第一个状态转移不一致的位置后,若将添加到集合b中;
9、其中,t<t'≤t,为动作空间,为策略i在目标环境中第t’时间步采取的动作,是策略i在t’时间步的当前状态,
10、为策略i在源环境中第t’时间步到达的下一状态,表示在状态空间中取使状态转移概率最大的状态st′+1,将st′+1赋值给是策略i在源环境中第t’时间步时的状态转移概率,
11、为策略i在目标环境中第t’时间步到达的下一状态,是当机器人在目标环境执行动作时所述目标环境反馈的状态;
12、步骤7).重复步骤6),直到t′=t;
13、步骤8).重复步骤5)、6)、7),直到i=c,集合z={z1,z2,…,zi,…,zc};
14、步骤9).从机器人在源环境经过的轨迹集合中选择起始状态sr和目标状态e;所述起始状态sr=zm,m=argmini∈[1,c]dis(zi,g),m表示在[1,c]内找到使dis(zi,g)最小的i值赋给m,dis(zi,g)为计算zi和g的距离函数;
15、所述目标状态e=mins∈cdis(sr,s),dis(sr,s)为计算sr和s的距离函数,x表示向量的第一维,y表本文档来自技高网...
【技术保护点】
1.一种面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,使用深度Q网络DQN算法训练从任务起点S到随机目标点gr的策略。
3.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,源环境奖励函数为rg是一个正常数,为指示函数,在满足st+1=g时为1,st是t时间步的状态,at是t时间步采取的动作,st+1是t+1时间步的状态,
4.根据权利要求3所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,新的奖励函数设定如下:
5.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤5)中,目标环境到达的状态跟源环境中到达的状态是否一致的比较,具体步骤包括:
6.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,所述回合最大步数T设置为75。
7.根据权利要求1所述的面向环境变化的
8.根据权利要求7所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤10)中,当机器人完成目标环境中不会出现的状态转移时,赋予负奖励,所述负奖励函数如下:
9.一种电子设备,其特征在于,所述电子设备包括存储器、一个或多个处理器;所述存储器上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~8任一项所述方法的步骤。
...【技术特征摘要】
1.一种面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,使用深度q网络dqn算法训练从任务起点s到随机目标点gr的策略。
3.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,源环境奖励函数为rg是一个正常数,为指示函数,在满足st+1=g时为1,st是t时间步的状态,at是t时间步采取的动作,st+1是t+1时间步的状态,
4.根据权利要求3所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤2)中,新的奖励函数设定如下:
5.根据权利要求1所述的面向环境变化的移动机器人导航避障策略迁移方法,其特征在于,步骤5)中,目标环境到达的状态跟源环境中到达的状态是否一致的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。