【技术实现步骤摘要】
一种基于生成对抗网络的强化学习探索方法
本专利技术涉及强化学习探索方法领域,尤其涉及一种基于生成对抗网络的强化学习探索方法。
技术介绍
强化学习探索问题,是指在强化学习技术中探索和利用的平衡问题。通常来讲,目前强化学习在落地到具体应用中时普遍存在探索不充分的情况,在机器人辅助物流运输的场景中使用强化学习时,通常需要人工地设计一些基于脚本的规则辅助机器人探索,来让强化学习关注于运筹优化的目标,但是人工设计的脚本难以最大限度地发挥强化学习的主动学习能力。而若不使用人工设计的脚本进行探索则机器人通常无法获得足够的外部奖励,难以快速准确地适应环境。(一)分析近期关于强化学习探索的专利技术:1、申请号为201910549586.X的中国专利技术专利申请《一种强化学习的高效探索方法》提出了一种利用预训练的计数估计函数进行强化学习的高效探索方法,该方法主要针对连续空间任务,并不适用于离散空间任务;2、申请号为201810071032.9的中国专利技术专利申请《强化学习任务中高维连续动作空间离散化探索方法》,通过量化 ...
【技术保护点】
1.一种基于生成对抗网络的强化学习探索方法,其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inR
【技术特征摘要】
1.一种基于生成对抗网络的强化学习探索方法,其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inRt,以鼓励探索。
2.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本是生成器G生成的虚拟状态样本zt。
3.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述正样本是真实状态样本φt。
4.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本与所述正样本相比,如果相似度高则所述判别器D给出的所述内部奖励inRt少,反之相似度低则给出所述内部奖励inRt多。
5.如权利要求4所述的基于生成对抗网络的强化学习探索方法,其特征在于,包括如下步骤:
步骤1、定义机器人的状态空间,即机器人执行每一步时的输入st,包括空间中的坐标,运货物目的地的距离和方向,待运货物坐标和距离,传感器感知的周围障碍物方位和距离,对于第t步,转换计算所述真实状态样本φt;
步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt;
步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt,输入所述判别器D,训练所述生成对抗网络,同时生成所述内部奖励inRt;
步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at,所述动作at包括改变和保持移动方向,拿起和放下货物,以及前进的速度,根据环境执行所述第t步后得到的外部奖励exRt,结合所述内部奖励inRt,生成所述第t步机器人得到的奖励总合Rt;<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。