【技术实现步骤摘要】
基于瓦瑟斯坦距离的无监督强化学习方法及装置
[0001]本专利技术涉及深度学习
,特别涉及一种基于瓦瑟斯坦距离的无监督强化学习方法及装置。
技术介绍
[0002]强化学习是机器学习领域中较为复杂的一个研究领域,针对的是解决一类序列决策问题。在这一类序列决策问题中,智能体被设定为需要从环境中感知信息(例如无人驾驶车视觉传感器获取的视觉信息,机械臂的角度、速度等状态信息),通过内置的策略模型计算得到动作,再施加给环境,如此反复与环境交互。在强化学习中,智能体的目标是最大化从环境反馈的回报。与传统的自然语言处理、计算机视觉领域的算法不同,强化学习方法致力于解决更普遍的一类问题,如人机交互、博弈、机器人控制等等,同时也可以应用到自然语言处理、计算机视觉领域。因此强化学习在实现通用人工智能上具有广阔前景,是目前的前沿研究领域。
[0003]与前述的经典强化学习相比,无监督强化学习致力于使得智能体在没有环境反馈的回报时,依旧成功地学习一系列策略或技能。当再次可以获取到环境的反馈时,这些学到的策略或技能可以被视作预训练模型来 ...
【技术保护点】
【技术特征摘要】
1.一种基于瓦瑟斯坦距离的无监督强化学习方法,其特征在于,包括以下步骤:获取智能体的当前策略引导得到的轨迹里的状态分布;计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;以及根据所述瓦瑟斯坦距离计算所述智能体的伪回报,并以所述伪回报代替目标强化学习框架中的环境反馈的回报,引导所述智能体的当前策略与所述其他历史策略保持大的距离。2.根据权利要求1所述的方法,其特征在于,所述根据所述瓦瑟斯坦距离计算所述智能体的伪回报,包括:利用所述智能体的策略模型,以所述智能体的当前观测得到的状态变量,进行决策得到动作变量,进而与环境产生交互,得到所述伪回报。3.根据权利要求1所述的方法,其特征在于,在计算所述智能体的伪回报之后,还包括:采用深度强化学习框架,利用梯度反向传播优化所述智能体的策略模型。4.根据权利要求1或2所述的方法,其特征在于,所述瓦瑟斯坦距离为对偶形式估计。5.根据权利要求3所述的方法,其特征在于,所述瓦瑟斯坦距离为对偶形式为原始形式估计。6.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。